ComfyLab
LTX Video en ComfyUI: El Modelo de Vídeo más Rápido (8GB VRAM)

LTX Video en ComfyUI: El Modelo de Vídeo más Rápido (8GB VRAM)

8GB VRAM VRAM Intermedio 10 min LTX Video
Savien

LTX Video en ComfyUI: El Modelo de Vídeo más Rápido (8GB VRAM)

Si tienes una RTX 3090 o una GPU con 8GB de VRAM y quieres generar vídeos en segundos en lugar de minutos, LTX Video es lo que necesitas. Desarrollado por Lightricks, este modelo de difusión ha transformado el flujo de trabajo de generación de vídeo en ComfyUI: permite crear clips de casi 4 segundos en menos de dos minutos. La diferencia es práctica: entre iterar 10 prompts en una sesión o quedarse esperando a que un solo vídeo termine de renderizar.

En esta guía te mostramos cómo instalar LTX Video en ComfyUI, configurar un workflow eficiente con 8GB VRAM, y entender cuándo usar esta herramienta frente a alternativas como Wan 2.2 o HunyuanVideo.

De un vistazo: LTX Video vs. alternativas

CaracterísticaLTX VideoWan 2.2HunyuanVideo
⏱️ Tiempo generación (97 frames)30-90 seg5-15 min3-8 min
💾 VRAM mínima8GB12GB10GB
🎬 Coherencia temporalBuena (clips cortos)ExcelenteMuy buena
🌊 Fluidez de movimientoBuenaExcelenteExcelente
📸 Soporte I2V
🎯 Ideal paraPrototipado rápidoProducción finalProducción final

¿Qué es LTX Video y por qué es tan rápido?

LTX Video es un modelo de generación de vídeo basado en difusión latente, optimizado específicamente para velocidad sin sacrificar demasiada calidad visual. A diferencia de modelos anteriores que generaban fotogramas de forma secuencial o requería múltiples pasadas, LTX Video genera 97 fotogramas (aproximadamente 4 segundos a 24fps) en un único proceso que dura entre 30 y 90 segundos en hardware potente como una RTX 3090.

La velocidad viene de su arquitectura compacta: utiliza un modelo de 2 mil millones de parámetros (2B), considerablemente más pequeño que competidores como Wan 2.2 o HunyuanVideo, sin perder demasiada coherencia temporal en clips cortos. Además, está completamente optimizado para ComfyUI, lo que significa que los nodos están diseñados específicamente para minimizar el overhead de procesamiento.

💡 Consejo: La compresión agresiva del espacio latente es lo que permite a LTX Video funcionar en 8GB VRAM. Este enfoque es distinto al de Wan, que prioriza la fluidez sobre la velocidad.

👉 El resultado: LTX Video logra su velocidad mediante una arquitectura más compacta (2B parámetros) y un espacio latente comprimido, lo que lo hace accesible incluso con 8GB VRAM.


Instalación y configuración en ComfyUI

Descargar el modelo LTX Video

El archivo del modelo es un único peso de aproximadamente 5.5GB disponible en HuggingFace del repositorio oficial de Lightricks. La versión más reciente disponible es ltx-video-2b-v0.9.5.safetensors, que incluye mejoras significativas en coherencia temporal respecto a versiones anteriores.

Descarga el archivo .safetensors completo desde Hugging Face y colócalo en:

ComfyUI/models/video_models/

Si esa carpeta no existe, créala manualmente. Alternativamente, puedes usar ComfyUI/models/diffusion_models/, aunque la primera ruta es más estándar para modelos de vídeo.

Instalar el custom node ComfyUI-LTXVideo

El custom node ComfyUI-LTXVideo es esencial para acceder a los nodos específicos del modelo. La instalación es sencilla:

  1. Abre ComfyUI Manager (arriba a la derecha).
  2. Busca “LTXVideo” o “ltx-video”.
  3. Instala el custom node y reinicia ComfyUI.

Sin este custom node, no verás los nodos LTXVideoModelLoader, LTXVideoSampler ni LTXVideoVAEDecode en tu interfaz.

📌 A tener en cuenta: Algunos usuarios reportan que necesitan actualizar ComfyUI a la versión más reciente para que el custom node funcione sin conflictos. Si encuentras errores, comprueba la versión de tu instalación.

👉 Lo esencial: Necesitas descargar el modelo v0.9.5 (~5.5GB) y el custom node LTXVideo para que ComfyUI reconozca los nodos específicos.


Estructura del workflow: Nodos clave

Un LTX Video workflow en ComfyUI consta de estos componentes esenciales:

LTXVideoModelLoader

Carga el modelo de 5.5GB en memoria. Acepta el nombre del archivo del modelo (por ejemplo, ltx-video-2b-v0.9.5.safetensors) y la selección de dispositivo (GPU/CPU). Con 8GB de VRAM, asegúrate de que no hay otros procesos usando memoria gráfica antes de ejecutar.

Codificación de texto (CLIPTextEncode o LTXVideoTextEncode)

Convierte tu prompt en embeddings. Puedes usar el nodo estándar CLIPTextEncode de ComfyUI o, si está disponible, LTXVideoTextEncode para optimización específica del modelo.

Los prompts funcionan mejor siendo descriptivos pero concisos:

  • ✅ “a person running through a forest, cinematic, 4k”
  • ❌ “una persona corriendo en un bosque” (demasiado vago)

LTXVideoSampler

Este es el nodo central que genera el vídeo. Acepta parámetros críticos que requieren ajuste fino:

  • Steps: 25-30 pasos es el rango óptimo. Menos de 25 genera artefactos visuales; más de 30 apenas mejora la calidad pero aumenta el tiempo de procesamiento significativamente.
  • CFG (Classifier-Free Guidance): 3-3.5 es el rango recomendado. Valores menores (2.5-3) producen vídeos más naturales pero menos adheridos al prompt; valores mayores (3.5-4) fuerzan más el prompt pero pueden generar artefactos.
  • Seed: Usa un seed fijo si necesitas reproducibilidad. Cambiar el seed genera variaciones del mismo prompt.
  • Resolución nativa: 768x512 (horizontal) o 512x768 (vertical). Estas resoluciones son las optimizadas para el modelo.

LTXVideoVAEDecode

Decodifica la salida latente del sampler en fotogramas de vídeo reales. Requiere el VAE del modelo, generalmente incluido o descargable.

VHS_VideoCombine

Combina los fotogramas en un archivo de vídeo MP4 o WebM. Los parámetros esenciales son:

  • Frame rate: 24fps es estándar; 30fps genera vídeos ligeramente más fluidos.
  • Format: MP4 es compatible con la mayoría de plataformas.

Parámetros clave para 8GB VRAM

Configuración optimizada para 8GB VRAM

Con exactamente 8GB de VRAM, la configuración debe ser conservadora:

ParámetroValor
Resolución768x512
Steps28
CFG3.2
Batch size1
Frame rate24fps

No intentes 720p o batch size > 1 sin optimizaciones adicionales. Esta configuración genera vídeos de buena calidad en 45-60 segundos.

⚠️ Importante: Si experimentas crashes por falta de memoria, reduce los steps a 24 o la resolución a 512x512. Algunos sistemas pueden necesitar aún más conservadores.

Configuración para mayor calidad (12GB+ VRAM)

Si tienes 12GB o más, puedes ser más ambicioso:

ParámetroValor
Resolución1280x720 (720p)
Steps30
CFG3.5
Batch size1

Image-to-Video (I2V) vs Text-to-Video (T2V)

LTX Video soporta ambos modos en el mismo modelo:

  • Text-to-Video (T2V): Solo necesita el prompt.
  • Image-to-Video (I2V): Requiere una imagen inicial. Añade un nodo LoadImage y conéctalo al sampler. El modelo genera 4 segundos de movimiento basado en esa imagen inicial.

👉 Resumen: Con 8GB VRAM, mantén resolución 768x512, 28 steps y CFG 3.2. LTX Video soporta tanto T2V como I2V con la misma configuración.


Ventajas y limitaciones de LTX Video

✅ Ventajas❌ Limitaciones
⚡ Velocidad de iteración: 5-10x más rápido que Wan 2.2🌊 Movimiento menos fluido en comparación directa
💾 Bajo consumo VRAM: funciona en 8GB⏳ Coherencia temporal limitada en clips largos
📸 Soporte dual T2V/I2V en un modelo📐 Resolución limitada a 768x512
🎯 Ideal para prototipado y redes sociales🎬 No recomendado para producción final de alta calidad

¿Por qué el movimiento es menos fluido?

LTX Video usa un espacio latente comprimido (factor 8 temporal vs factor 4 de Wan) para conseguir velocidad. Esto sacrifica algo de coherencia temporal. Para clips de 2-3 segundos la diferencia es pequeña; en clips más largos se nota más. Generar a resolución más baja (512x512) mejora la fluidez si necesitas mayor suavidad.


Casos de uso ideales para LTX Video

LTX Video brilla en escenarios específicos:

  1. Prototipado de prompts: Prueba 10-15 variaciones de un prompt en 30 minutos, selecciona la mejor, y luego genera la versión final con Wan o HunyuanVideo.

  2. Contenido de redes sociales: Vídeos cortos de 4 segundos para TikTok, Instagram Reels o YouTube Shorts no requieren coherencia perfecta.

  3. Storyboarding visual: Genera rápidamente clips que visualicen una narrativa antes de producción real.

  4. Iteración creativa: Cuando necesitas feedback visual rápido para decisiones creativas.

💡 Consejo práctico: El flujo más eficiente es usar LTX Video para iterar prompts (rápido y barato en VRAM) y luego generar la versión final con Wan 2.2 o HunyuanVideo. Esto ahorra tiempo y recursos significativamente.

No es ideal para producción final de vídeos de alta calidad que requieren movimiento fluido y coherencia temporal perfecta.


Preguntas frecuentes verificadas

P: ¿LTX Video es mejor que Wan 2.2?

R: Depende del objetivo. LTX Video es 5-10 veces más rápido y funciona en 8GB VRAM. Wan 2.2 produce movimiento más fluido y coherencia temporal superior. El flujo recomendado es iterar prompts con LTX Video (rápido) y generar el resultado final con Wan 2.2 o HunyuanVideo (calidad).

P: ¿Qué versión de LTX Video debo descargar?

R: La versión más reciente disponible en HuggingFace del repositorio oficial de Lightricks. En 2026 es ltx-video-2b-v0.9.5. Las versiones anteriores (0.9, 0.9.1) tienen peor calidad de movimiento. Descarga el archivo .safetensors completo (~5.5GB).

P: ¿LTX Video puede hacer image-to-video?

R: Sí, el mismo modelo soporta tanto T2V como I2V. Para I2V, conecta una imagen de inicio al nodo LTXVideoSampler. La imagen define el primer frame y el prompt de movimiento describe la animación.

P: ¿Por qué los vídeos de LTX Video se ven menos fluidos que los de Wan?

R: LTX Video usa un espacio latente comprimido (factor 8 temporal vs factor 4 de Wan) para conseguir velocidad. Esto sacrifica algo de coherencia temporal. Para clips de 2-3 segundos la diferencia es pequeña; en clips más largos se nota más. Generar a resolución más baja (512x512) mejora la fluidez.

P: ¿Puedo usar LTX Video con una RTX 3060 de 12GB?

R: Sí, funciona perfectamente. Incluso puedes experimentar con resoluciones ligeramente más altas como 1024x576 con pasos de 25-26.

P: ¿Qué hago si obtengo errores de VRAM insuficiente?

R: Reduce los pasos a 20-22, disminuye la resolución a 512x512, o cierra otras aplicaciones. Si nada funciona, necesitarás una GPU con más VRAM.

P: ¿Cómo genero vídeos más largos que 4 segundos?

R: LTX Video genera 97 fotogramas (4 segundos a 24fps) por defecto. Para vídeos más largos, ejecuta el modelo múltiples veces y encadena los clips, o usa I2V con el último fotograma del clip anterior como entrada.

P: ¿Debo usar seed fijo o aleatorio?

R: Para exploración creativa, usa seed aleatorio. Para reproducibilidad o cuando encuentres un resultado bueno y quieres variaciones menores, fija el seed y ajusta solo el CFG o el prompt.


Sigue leyendo

Si quieres profundizar en técnicas avanzadas de generación de vídeo con IA, consulta nuestra guía sobre upscaling de vídeos con ESRGAN en ComfyUI para mejorar la resolución de clips generados. También te recomendamos explorar nuestro artículo sobre comparativa completa de modelos de vídeo IA 2025 para entender cuándo usar Wan 2.2, HunyuanVideo o LTX Video según tu caso de uso. Finalmente, si necesitas encadenar múltiples clips, descubre cómo crear transiciones fluidas entre vídeos generados con IA.


Conclusión

🏆 Nuestra recomendación

LTX Video representa un cambio paradigmático en la generación de vídeo con IA: sacrifica algo de calidad final por velocidad de iteración, pero en el contexto correcto, esa compensación es extraordinariamente valiosa.

  • Si trabajas en prototipado, necesitas iterar rápidamente o tienes presupuesto limitado de VRAM → LTX Video es tu punto de partida ideal.
  • Si necesitas producción final con movimiento fluido y coherencia temporal perfecta → Usa LTX Video para iterar prompts, luego genera con Wan 2.2 o HunyuanVideo.

Descarga el modelo v0.9.5, instala el custom node y comienza con un workflow simple. Dedica la primera sesión a entender cómo responden los prompts a diferentes valores de CFG y steps. Una vez domines los parámetros, verás por qué LTX Video se ha convertido en la herramienta favorita para creadores que valoran la velocidad de experimentación.

Preguntas frecuentes

¿LTX Video es mejor que Wan 2.2?
Depende del objetivo. LTX Video es 5-10 veces más rápido y funciona en 8GB VRAM. Wan 2.2 produce movimiento más fluido y coherencia temporal superior. El flujo recomendado es iterar prompts con LTX Video (rápido) y generar el resultado final con Wan 2.2 o HunyuanVideo (calidad).
¿Qué versión de LTX Video debo descargar?
La versión más reciente disponible en HuggingFace del repositorio oficial de Lightricks. En 2026 es ltx-video-2b-v0.9.5. Las versiones anteriores (0.9, 0.9.1) tienen peor calidad de movimiento. Descarga el archivo .safetensors completo (~5.5GB).
¿LTX Video puede hacer image-to-video?
Sí, el mismo modelo soporta tanto T2V como I2V. Para I2V, conecta una imagen de inicio al nodo LTXVideoSampler. La imagen define el primer frame y el prompt de movimiento describe la animación.
¿Por qué los vídeos de LTX Video se ven menos fluidos que los de Wan?
LTX Video usa un espacio latente comprimido (factor 8 temporal vs factor 4 de Wan) para conseguir velocidad. Esto sacrifica algo de coherencia temporal. Para clips de 2-3 segundos la diferencia es pequeña; en clips más largos se nota más. Generar a resolución más baja (512x512) mejora la fluidez.
Compartir X LinkedIn

También te puede interesar