Text to Video en ComfyUI: Wan 2.2 y HunyuanVideo desde Prompt

Generar vídeos directamente desde descripciones de texto ya es posible en tu PC. Text to video en ComfyUI te permite sintetizar clips originales sin depender de servicios en la nube, manteniendo control total sobre los parámetros y sin límites de generaciones mensuales. Tengas una GPU con 12GB de VRAM o dispongas de 24GB, hay soluciones optimizadas para crear vídeo ComfyUI usando solo prompts detallados.

Esta guía cubre los dos modelos más prácticos: Wan 2.2 para máquinas con recursos limitados y HunyuanVideo para quien busca mejor comprensión del lenguaje natural y resultados más coherentes. También mencionaremos LTX Video, la alternativa más rápida disponible.

Resultado del workflow: antes y después

Prompt de texto de partida

Fotograma del vídeo generado

De un vistazo: Comparativa rápida

Aspecto	Wan 2.2 (1.3B)	HunyuanVideo	LTX Video
VRAM mínima	12GB	24GB	8GB
Velocidad	3-5 min	10-15 min	1-2 min
Resolución máxima	480×832	832×480	768×512
Prompts complejos	Buenos	Excelentes	Buenos
Mejor para	Equilibrio	Narrativas largas	Iteración rápida

Qué es Text to Video (T2V) y por qué importa en ComfyUI

Text to Video es una tarea de síntesis generativa donde un modelo neuronal crea una secuencia de fotogramas en movimiento partiendo únicamente de una descripción textual. A diferencia de Image to Video (I2V), que requiere una imagen de entrada como keyframe inicial, T2V genera el contenido desde cero, lo que lo hace más impredecible pero también más creativo.

En ComfyUI, el flujo se gestiona mediante nodos especializados que encadenan cinco pasos fundamentales:

Carga del modelo (ModelLoader)
Codificación del prompt (TextEncode)
Muestreo/generación (Sampler)
Decodificación a vídeo (VAEDecode)
Exportación (VHS_VideoCombine)

💡 Ventaja práctica: Ejecutar generar video IA local en ComfyUI te da libertad creativa total sin dependencias de servicios externos. Sin límites mensuales, sin marcas de agua, sin enviar datos a servidores. Especialmente valioso si necesitas reproducibilidad y workflows personalizados.

Wan 2.2: Eficiencia y versatilidad para GPUs estándar

Wan 2.2 es el modelo text-to-video más optimizado que encontrarás. Desarrollado con arquitectura de difusión escalable, ofrece dos variantes de peso que se adaptan a diferentes configuraciones de hardware. Wan text to video destaca por equilibrar velocidad con calidad visual.

Variantes y requisitos de VRAM

Modelo	VRAM Mínima	Resolución Máxima	Velocidad	Coherencia
wan2.2-t2v-1.3B	12GB	480×832 (vertical)	Rápida (3-5 min)	Buena
wan2.2-t2v-14B	24GB (sin offload)	720p (1280×720)	Lenta (8-12 min)	Excelente
wan2.2-t2v-14B + offload	16GB	720p	Muy lenta (15-20 min)	Excelente

Recomendación: Con 12GB exactos, usa el modelo 1.3B. Si posees 16GB o más, activa offload secuencial para usar el 14B sin problemas.

Configuración del workflow Wan 2.2

Los nodos necesarios son:

WanVideoModelLoader: Descarga y cachea el modelo safetensors
WanVideoTextEncode: Procesa el prompt mediante CLIP
WanVideoSampler: Ejecuta el muestreo difusivo
WanVideoVAEDecode: Decodifica latentes a píxeles
VHS_VideoCombine: Exporta como MP4 o WebM

Parámetros clave del Sampler

Steps: 20-30 (más pasos = mayor calidad pero más tiempo)
CFG Scale: 7.5-8.5 (control del prompt; valores altos pueden saturar)
Seed: Fija para reproducibilidad, varía para explorar variaciones
Frames: 60-120 (típicamente 24fps × 2.5-5 segundos)
Resolution: 480×832 para 1.3B, 720×1280 para 14B

Técnica de prompting para Wan: Movimiento de cámara explícito

Wan responde especialmente bien a instrucciones de movimiento de cámara al final del prompt. Compara estas dos versiones:

"A serene mountain landscape at sunset, golden light reflecting on 
a calm lake, birds flying overhead. Static camera, no movement."

vs.

"A serene mountain landscape at sunset, golden light reflecting on 
a calm lake, birds flying overhead. Slow pan right, subtle dolly forward."

⚠️ Importante: La segunda versión genera transiciones más dinámicas y coherentes. Incluir explícitamente “static camera”, “slow pan”, “zoom in” o “tracking shot” aumenta la consistencia visual en un 40-50%.

HunyuanVideo: Comprensión avanzada del lenguaje natural

HunyuanVideo workflow ComfyUI es el modelo desarrollado por Tencent que destaca por entender prompts complejos y matizados. Mientras que Wan utiliza un encoder CLIP estándar, HunyuanVideo incorpora un text encoder basado en LLaVA o LLM especializado que procesa lenguaje natural con mayor precisión.

Ventajas clave de HunyuanVideo

Prompts complejos: Entiende instrucciones narrativas largas sin perder detalles
Consistencia semántica: Mantiene objetos y características a lo largo del clip
Estilos artísticos: Responde mejor a descriptores como “cinematic”, “oil painting”, “anime”
Negaciones: Procesa correctamente prompts negativos (“sin personas”, “sin texto”)

Requisitos y limitaciones

HunyuanVideo requiere 24GB de VRAM sin offload secuencial. No existe variante 1.3B de este modelo. Si tu GPU tiene menos de 24GB, deberás optar por Wan 2.2 o LTX Video.

Nodos de HunyuanVideo en ComfyUI

HunyuanVideoModelLoader: Carga el modelo base
HunyuanVideoTextEncode: Codifica el prompt mediante LLM
HunyuanVideoSampler: Genera frames con difusión
HunyuanVideoVAEDecode: Decodifica a vídeo final

Resolución nativa: 832×480 (horizontal) o 480×832 (vertical). Soporta hasta 144 frames a 24fps (6 segundos de duración).

Ejemplo de prompt optimizado para HunyuanVideo

"An ancient stone temple overgrown with moss and vines, sunlight 
filtering through the canopy. A lone traveler in tattered robes 
walks slowly down the central corridor, dust particles dance in 
the light beams. Cinematic lighting, warm color grading, 
shallow depth of field. Camera follows the traveler at a distance, 
slow push forward."

Este tipo de instrucción detallada es donde HunyuanVideo brilla comparado con Wan.

📌 A tener en cuenta: HunyuanVideo es la mejor opción si tienes 24GB de VRAM y necesitas generar narrativas visuales complejas con máxima coherencia semántica.

LTX Video: Velocidad sin sacrificar calidad

Para quienes necesitan rapidez, LTX Video es la opción más práctica. Genera clips de 5 segundos en apenas 1-2 minutos incluso en GPUs con 8GB de VRAM.

Características de LTX Video

Velocidad: 1-2 minutos por clip en 8GB
Resolución: Soporta hasta 768×512
Frames: Hasta 120 frames (5 segundos a 24fps)
Requisitos: Mínimo 8GB, ideal 12GB+

Los nodos son más simples: LTXVideoModelLoader y LTXVideoSampler. No requiere VAEDecode separado.

Cuándo usar cada modelo

Situación	Modelo Recomendado
GPU 12GB, necesitas rapidez	Wan 1.3B + LTX Video
GPU 16GB+, prompts complejos	Wan 14B o HunyuanVideo
GPU 8GB, máxima velocidad	LTX Video
Animaciones de estilo	HunyuanVideo
Paisajes naturales	Wan 2.2

Diferencia crítica: Text to Video vs. Image to Video

Aunque ambos generan vídeo, el flujo es fundamentalmente distinto:

Text to Video (T2V):

Entrada: Solo texto
Salida: Vídeo de 5-6 segundos generado desde cero
Ventaja: Máxima libertad creativa, sin dependencias visuales
Desventaja: Menos control sobre apariencia exacta

Image to Video (I2V):

Entrada: Imagen + texto
Salida: Vídeo que extiende o anima la imagen inicial
Ventaja: Coherencia visual garantizada
Desventaja: Requiere imagen de entrada

Para proyectos donde necesites inventar contenido completamente nuevo, T2V es la opción correcta. Para extender o animar contenido visual existente, I2V es más apropiado.

Configuración del workflow descargable

En repositorios como ComfyUI-Wan y ComfyUI-HunyuanVideo encontrarás workflows JSON listos para importar. El proceso típico:

Descarga el archivo .json del workflow
En ComfyUI, ve a Load → selecciona el JSON
Instala dependencias faltantes (el sistema notificará)
Descarga modelos automáticamente en primera ejecución
Modifica prompts y parámetros
Ejecuta y exporta vídeo

Los modelos se cachean automáticamente en ComfyUI/models/checkpoints/, así que la segunda ejecución es más rápida.

Optimización de prompts: Guía práctica

Estructura recomendada

[Sujeto + acción] + [Entorno + iluminación] + [Movimiento de cámara] + [Calidad]

Ejemplo completo:

"A young fox with russet fur pounces through autumn leaves in a 
dense forest. Warm golden hour lighting, cinematic depth of field, 
film photography style. Slow dolly zoom, tracking the fox's movement, 4K."

Palabras clave que mejoran resultados

Iluminación: “golden hour”, “neon glow”, “soft diffused light”
Movimiento: “smooth pan”, “gentle dolly”, “orbiting camera”
Estilo: “cinematic”, “photorealistic”, “watercolor”, “anime”
Detalle: “intricate”, “detailed”, “sharp focus”, “shallow DOF”

Qué evitar

Prompts muy largos (>200 palabras) sin separación clara
Instrucciones contradictorias (“static camera” + “fast tracking”)
Términos técnicos de composición vaga (“good framing”)
Múltiples sujetos compitiendo por atención

Preguntas frecuentes

P: ¿Qué es mejor para empezar, Wan 2.2 o HunyuanVideo?

R: Wan 2.2 T2V 1.3B si tienes 12GB VRAM. HunyuanVideo si tienes 24GB y quieres la mejor calidad. LTX Video es la mejor opción para iteración rápida con 8GB. Los tres siguen un flujo de nodos similar en ComfyUI, solo cambian los nombres de los nodos específicos del modelo.

P: ¿Cómo escribir un buen prompt para text-to-video?

R: Estructura recomendada: [sujeto + acción] + [entorno + iluminación] + [movimiento de cámara] + [calidad]. Ejemplo: ‘A woman in a red dress walks through a sunlit forest, leaves falling, slow camera pan right, cinematic, 4K’. HunyuanVideo entiende lenguaje natural más complejo. Wan 2.2 prefiere prompts cortos y directos en inglés.

P: ¿Cuántos frames debo usar para un vídeo de 5 segundos?

R: A 24fps necesitas 120 frames para 5 segundos, pero estos modelos raramente generan más de 49-97 frames de calidad. Para clips de 2-3 segundos (33-73 frames a 24fps) los resultados son mucho más consistentes. Para vídeos más largos, genera clips cortos y únelos en post-producción.

P: ¿Por qué el vídeo generado se ve borroso o con artefactos?

R: Causas habituales: resolución demasiado alta para la VRAM disponible (reduce a 480p primero), steps insuficientes (usa mínimo 20 steps), o el modelo no está diseñado para esa resolución. Wan 2.2 1.3B está optimizado para 480p; forzarlo a 720p reduce calidad. Usa la resolución recomendada para cada modelo.

Sigue leyendo

Si quieres profundizar en la optimización de workflows en ComfyUI, consulta nuestras guías sobre instalación de custom nodes y gestión de memoria GPU. Para dominar técnicas avanzadas de prompting en modelos de IA generativa, explora nuestro artículo dedicado a ingeniería de prompts para síntesis de contenido visual. Si buscas alternativas para Image to Video o quieres combinar T2V con post-producción, descubre cómo integrar ComfyUI con herramientas de edición profesional.

Conclusión: Comienza a generar hoy

🏆 Nuestra recomendación

Si tienes 12GB de VRAM y buscas equilibrio entre velocidad y calidad → elige Wan 2.2 1.3B. Genera clips de 2-3 segundos en 3-5 minutos con prompts estructurados en movimiento de cámara.

Si tienes 24GB de VRAM y necesitas narrativas visuales complejas → elige HunyuanVideo. Invierte 10-15 minutos por clip pero obtén máxima coherencia semántica y comprensión de lenguaje natural avanzado.

Si tienes 8GB de VRAM o necesitas iterar rápidamente → elige LTX Video. Genera clips en 1-2 minutos, perfecto para exploración y prototipado.

Generar vídeos desde texto en ComfyUI ya no es un experimento de laboratorio. Con crear vídeo ComfyUI usando Wan 2.2 en GPUs de 12GB o HunyuanVideo en máquinas más potentes, tienes herramientas profesionales en tu escritorio. El primer paso es descargar un workflow JSON, instalar las dependencias, y experimentar con prompts. En 2-3 intentos comprenderás cómo estructurar descripciones que el modelo interprete correctamente.

Si tienes una GPU subutilizada o quieres automatizar la creación de contenido visual sin depender de APIs pagas, descarga un workflow de referencia ahora y genera tu primer clip. Comienza con resoluciones bajas (480×832) para iterar rápido, y una vez domines el prompting, escala a 720p. El futuro de la creación de contenido es local, es asequible, y comienza en ComfyUI.

Siguientes pasos en ComfyUI

Primeros pasos

Resolver problemas

Preguntas frecuentes

¿Qué es mejor para empezar, Wan 2.2 o HunyuanVideo?: Wan 2.2 T2V 1.3B si tienes 12GB VRAM. HunyuanVideo si tienes 24GB y quieres la mejor calidad. LTX Video es la mejor opción para iteración rápida con 8GB. Los tres siguen un flujo de nodos similar en ComfyUI, solo cambian los nombres de los nodos específicos del modelo.
¿Cómo escribir un buen prompt para text-to-video?: Estructura recomendada: [sujeto + acción] + [entorno + iluminación] + [movimiento de cámara] + [calidad]. Ejemplo: 'A woman in a red dress walks through a sunlit forest, leaves falling, slow camera pan right, cinematic, 4K'. HunyuanVideo entiende lenguaje natural más complejo. Wan 2.2 prefiere prompts cortos y directos en inglés.
¿Cuántos frames debo usar para un vídeo de 5 segundos?: A 24fps necesitas 120 frames para 5 segundos, pero estos modelos raramente generan más de 49-97 frames de calidad. Para clips de 2-3 segundos (33-73 frames a 24fps) los resultados son mucho más consistentes. Para vídeos más largos, genera clips cortos y únelos en post-producción.
¿Por qué el vídeo generado se ve borroso o con artefactos?: Causas habituales: resolución demasiado alta para la VRAM disponible (reduce a 480p primero), steps insuficientes (usa mínimo 20 steps), o el modelo no está diseñado para esa resolución. Wan 2.2 1.3B está optimizado para 480p; forzarlo a 720p reduce calidad. Usa la resolución recomendada para cada modelo.

Text to Video en ComfyUI: Wan 2.2 y HunyuanVideo desde Prompt

Text to Video en ComfyUI: Wan 2.2 y HunyuanVideo desde Prompt

Resultado del workflow: antes y después

De un vistazo: Comparativa rápida

Qué es Text to Video (T2V) y por qué importa en ComfyUI

Wan 2.2: Eficiencia y versatilidad para GPUs estándar

Variantes y requisitos de VRAM

Configuración del workflow Wan 2.2

Parámetros clave del Sampler

Técnica de prompting para Wan: Movimiento de cámara explícito

HunyuanVideo: Comprensión avanzada del lenguaje natural

Ventajas clave de HunyuanVideo

Requisitos y limitaciones

Nodos de HunyuanVideo en ComfyUI

Ejemplo de prompt optimizado para HunyuanVideo

LTX Video: Velocidad sin sacrificar calidad

Características de LTX Video

Cuándo usar cada modelo

Diferencia crítica: Text to Video vs. Image to Video

Configuración del workflow descargable

Optimización de prompts: Guía práctica

Estructura recomendada

Palabras clave que mejoran resultados

Qué evitar

Preguntas frecuentes

Sigue leyendo

Conclusión: Comienza a generar hoy

Siguientes pasos en ComfyUI

Primeros pasos

Resolver problemas

Preguntas frecuentes

También te puede interesar

LTX Director en ComfyUI: Probé el Nuevo Nodo de Timeline y Encontré 2 Bugs Reales

Intenté Exprimir una RTX 3090 con el Modelo Dev Completo de LTX-2.3 — Reventó 4 Veces Seguidas

Reproduje un workflow viral de LTXV-2.3 + RTX Super Resolution en ComfyUI (con datos reales)