ComfyLab
Text to Video en ComfyUI: Wan 2.2 y HunyuanVideo desde Prompt

Text to Video en ComfyUI: Wan 2.2 y HunyuanVideo desde Prompt

12GB VRAM VRAM Avanzado 11 min Wan 2.2 T2V / HunyuanVideo
Savien

Text to Video en ComfyUI: Wan 2.2 y HunyuanVideo desde Prompt

Generar vídeos directamente desde descripciones de texto ya es posible en tu PC. Text to video en ComfyUI te permite sintetizar clips originales sin depender de servicios en la nube, manteniendo control total sobre los parámetros y sin límites de generaciones mensuales. Tengas una GPU con 12GB de VRAM o dispongas de 24GB, hay soluciones optimizadas para crear vídeo ComfyUI usando solo prompts detallados.

Esta guía cubre los dos modelos más prácticos: Wan 2.2 para máquinas con recursos limitados y HunyuanVideo para quien busca mejor comprensión del lenguaje natural y resultados más coherentes. También mencionaremos LTX Video, la alternativa más rápida disponible.

Resultado del workflow: antes y después

Prompt de texto de partida Prompt de texto de partida

Fotograma del vídeo generado Fotograma del vídeo generado


De un vistazo: Comparativa rápida

AspectoWan 2.2 (1.3B)HunyuanVideoLTX Video
VRAM mínima12GB24GB8GB
Velocidad3-5 min10-15 min1-2 min
Resolución máxima480×832832×480768×512
Prompts complejosBuenosExcelentesBuenos
Mejor paraEquilibrioNarrativas largasIteración rápida

Qué es Text to Video (T2V) y por qué importa en ComfyUI

Text to Video es una tarea de síntesis generativa donde un modelo neuronal crea una secuencia de fotogramas en movimiento partiendo únicamente de una descripción textual. A diferencia de Image to Video (I2V), que requiere una imagen de entrada como keyframe inicial, T2V genera el contenido desde cero, lo que lo hace más impredecible pero también más creativo.

En ComfyUI, el flujo se gestiona mediante nodos especializados que encadenan cinco pasos fundamentales:

  1. Carga del modelo (ModelLoader)
  2. Codificación del prompt (TextEncode)
  3. Muestreo/generación (Sampler)
  4. Decodificación a vídeo (VAEDecode)
  5. Exportación (VHS_VideoCombine)

💡 Ventaja práctica: Ejecutar generar video IA local en ComfyUI te da libertad creativa total sin dependencias de servicios externos. Sin límites mensuales, sin marcas de agua, sin enviar datos a servidores. Especialmente valioso si necesitas reproducibilidad y workflows personalizados.


Wan 2.2: Eficiencia y versatilidad para GPUs estándar

Wan 2.2 es el modelo text-to-video más optimizado que encontrarás. Desarrollado con arquitectura de difusión escalable, ofrece dos variantes de peso que se adaptan a diferentes configuraciones de hardware. Wan text to video destaca por equilibrar velocidad con calidad visual.

Variantes y requisitos de VRAM

ModeloVRAM MínimaResolución MáximaVelocidadCoherencia
wan2.2-t2v-1.3B12GB480×832 (vertical)Rápida (3-5 min)Buena
wan2.2-t2v-14B24GB (sin offload)720p (1280×720)Lenta (8-12 min)Excelente
wan2.2-t2v-14B + offload16GB720pMuy lenta (15-20 min)Excelente

Recomendación: Con 12GB exactos, usa el modelo 1.3B. Si posees 16GB o más, activa offload secuencial para usar el 14B sin problemas.

Configuración del workflow Wan 2.2

Los nodos necesarios son:

  • WanVideoModelLoader: Descarga y cachea el modelo safetensors
  • WanVideoTextEncode: Procesa el prompt mediante CLIP
  • WanVideoSampler: Ejecuta el muestreo difusivo
  • WanVideoVAEDecode: Decodifica latentes a píxeles
  • VHS_VideoCombine: Exporta como MP4 o WebM

Parámetros clave del Sampler

  • Steps: 20-30 (más pasos = mayor calidad pero más tiempo)
  • CFG Scale: 7.5-8.5 (control del prompt; valores altos pueden saturar)
  • Seed: Fija para reproducibilidad, varía para explorar variaciones
  • Frames: 60-120 (típicamente 24fps × 2.5-5 segundos)
  • Resolution: 480×832 para 1.3B, 720×1280 para 14B

Técnica de prompting para Wan: Movimiento de cámara explícito

Wan responde especialmente bien a instrucciones de movimiento de cámara al final del prompt. Compara estas dos versiones:

"A serene mountain landscape at sunset, golden light reflecting on 
a calm lake, birds flying overhead. Static camera, no movement."

vs.

"A serene mountain landscape at sunset, golden light reflecting on 
a calm lake, birds flying overhead. Slow pan right, subtle dolly forward."

⚠️ Importante: La segunda versión genera transiciones más dinámicas y coherentes. Incluir explícitamente “static camera”, “slow pan”, “zoom in” o “tracking shot” aumenta la consistencia visual en un 40-50%.


HunyuanVideo: Comprensión avanzada del lenguaje natural

HunyuanVideo workflow ComfyUI es el modelo desarrollado por Tencent que destaca por entender prompts complejos y matizados. Mientras que Wan utiliza un encoder CLIP estándar, HunyuanVideo incorpora un text encoder basado en LLaVA o LLM especializado que procesa lenguaje natural con mayor precisión.

Ventajas clave de HunyuanVideo

  • Prompts complejos: Entiende instrucciones narrativas largas sin perder detalles
  • Consistencia semántica: Mantiene objetos y características a lo largo del clip
  • Estilos artísticos: Responde mejor a descriptores como “cinematic”, “oil painting”, “anime”
  • Negaciones: Procesa correctamente prompts negativos (“sin personas”, “sin texto”)

Requisitos y limitaciones

HunyuanVideo requiere 24GB de VRAM sin offload secuencial. No existe variante 1.3B de este modelo. Si tu GPU tiene menos de 24GB, deberás optar por Wan 2.2 o LTX Video.

Nodos de HunyuanVideo en ComfyUI

  • HunyuanVideoModelLoader: Carga el modelo base
  • HunyuanVideoTextEncode: Codifica el prompt mediante LLM
  • HunyuanVideoSampler: Genera frames con difusión
  • HunyuanVideoVAEDecode: Decodifica a vídeo final

Resolución nativa: 832×480 (horizontal) o 480×832 (vertical). Soporta hasta 144 frames a 24fps (6 segundos de duración).

Ejemplo de prompt optimizado para HunyuanVideo

"An ancient stone temple overgrown with moss and vines, sunlight 
filtering through the canopy. A lone traveler in tattered robes 
walks slowly down the central corridor, dust particles dance in 
the light beams. Cinematic lighting, warm color grading, 
shallow depth of field. Camera follows the traveler at a distance, 
slow push forward."

Este tipo de instrucción detallada es donde HunyuanVideo brilla comparado con Wan.

📌 A tener en cuenta: HunyuanVideo es la mejor opción si tienes 24GB de VRAM y necesitas generar narrativas visuales complejas con máxima coherencia semántica.


LTX Video: Velocidad sin sacrificar calidad

Para quienes necesitan rapidez, LTX Video es la opción más práctica. Genera clips de 5 segundos en apenas 1-2 minutos incluso en GPUs con 8GB de VRAM.

Características de LTX Video

  • Velocidad: 1-2 minutos por clip en 8GB
  • Resolución: Soporta hasta 768×512
  • Frames: Hasta 120 frames (5 segundos a 24fps)
  • Requisitos: Mínimo 8GB, ideal 12GB+

Los nodos son más simples: LTXVideoModelLoader y LTXVideoSampler. No requiere VAEDecode separado.

Cuándo usar cada modelo

SituaciónModelo Recomendado
GPU 12GB, necesitas rapidezWan 1.3B + LTX Video
GPU 16GB+, prompts complejosWan 14B o HunyuanVideo
GPU 8GB, máxima velocidadLTX Video
Animaciones de estiloHunyuanVideo
Paisajes naturalesWan 2.2

Diferencia crítica: Text to Video vs. Image to Video

Aunque ambos generan vídeo, el flujo es fundamentalmente distinto:

Text to Video (T2V):

  • Entrada: Solo texto
  • Salida: Vídeo de 5-6 segundos generado desde cero
  • Ventaja: Máxima libertad creativa, sin dependencias visuales
  • Desventaja: Menos control sobre apariencia exacta

Image to Video (I2V):

  • Entrada: Imagen + texto
  • Salida: Vídeo que extiende o anima la imagen inicial
  • Ventaja: Coherencia visual garantizada
  • Desventaja: Requiere imagen de entrada

Para proyectos donde necesites inventar contenido completamente nuevo, T2V es la opción correcta. Para extender o animar contenido visual existente, I2V es más apropiado.


Configuración del workflow descargable

En repositorios como ComfyUI-Wan y ComfyUI-HunyuanVideo encontrarás workflows JSON listos para importar. El proceso típico:

  1. Descarga el archivo .json del workflow
  2. En ComfyUI, ve a Load → selecciona el JSON
  3. Instala dependencias faltantes (el sistema notificará)
  4. Descarga modelos automáticamente en primera ejecución
  5. Modifica prompts y parámetros
  6. Ejecuta y exporta vídeo

Los modelos se cachean automáticamente en ComfyUI/models/checkpoints/, así que la segunda ejecución es más rápida.


Optimización de prompts: Guía práctica

Estructura recomendada

[Sujeto + acción] + [Entorno + iluminación] + [Movimiento de cámara] + [Calidad]

Ejemplo completo:

"A young fox with russet fur pounces through autumn leaves in a 
dense forest. Warm golden hour lighting, cinematic depth of field, 
film photography style. Slow dolly zoom, tracking the fox's movement, 4K."

Palabras clave que mejoran resultados

  • Iluminación: “golden hour”, “neon glow”, “soft diffused light”
  • Movimiento: “smooth pan”, “gentle dolly”, “orbiting camera”
  • Estilo: “cinematic”, “photorealistic”, “watercolor”, “anime”
  • Detalle: “intricate”, “detailed”, “sharp focus”, “shallow DOF”

Qué evitar

  • Prompts muy largos (>200 palabras) sin separación clara
  • Instrucciones contradictorias (“static camera” + “fast tracking”)
  • Términos técnicos de composición vaga (“good framing”)
  • Múltiples sujetos compitiendo por atención

Preguntas frecuentes

P: ¿Qué es mejor para empezar, Wan 2.2 o HunyuanVideo?

R: Wan 2.2 T2V 1.3B si tienes 12GB VRAM. HunyuanVideo si tienes 24GB y quieres la mejor calidad. LTX Video es la mejor opción para iteración rápida con 8GB. Los tres siguen un flujo de nodos similar en ComfyUI, solo cambian los nombres de los nodos específicos del modelo.

P: ¿Cómo escribir un buen prompt para text-to-video?

R: Estructura recomendada: [sujeto + acción] + [entorno + iluminación] + [movimiento de cámara] + [calidad]. Ejemplo: ‘A woman in a red dress walks through a sunlit forest, leaves falling, slow camera pan right, cinematic, 4K’. HunyuanVideo entiende lenguaje natural más complejo. Wan 2.2 prefiere prompts cortos y directos en inglés.

P: ¿Cuántos frames debo usar para un vídeo de 5 segundos?

R: A 24fps necesitas 120 frames para 5 segundos, pero estos modelos raramente generan más de 49-97 frames de calidad. Para clips de 2-3 segundos (33-73 frames a 24fps) los resultados son mucho más consistentes. Para vídeos más largos, genera clips cortos y únelos en post-producción.

P: ¿Por qué el vídeo generado se ve borroso o con artefactos?

R: Causas habituales: resolución demasiado alta para la VRAM disponible (reduce a 480p primero), steps insuficientes (usa mínimo 20 steps), o el modelo no está diseñado para esa resolución. Wan 2.2 1.3B está optimizado para 480p; forzarlo a 720p reduce calidad. Usa la resolución recomendada para cada modelo.


Sigue leyendo

Si quieres profundizar en la optimización de workflows en ComfyUI, consulta nuestras guías sobre instalación de custom nodes y gestión de memoria GPU. Para dominar técnicas avanzadas de prompting en modelos de IA generativa, explora nuestro artículo dedicado a ingeniería de prompts para síntesis de contenido visual. Si buscas alternativas para Image to Video o quieres combinar T2V con post-producción, descubre cómo integrar ComfyUI con herramientas de edición profesional.



Conclusión: Comienza a generar hoy

🏆 Nuestra recomendación

Si tienes 12GB de VRAM y buscas equilibrio entre velocidad y calidad → elige Wan 2.2 1.3B. Genera clips de 2-3 segundos en 3-5 minutos con prompts estructurados en movimiento de cámara.

Si tienes 24GB de VRAM y necesitas narrativas visuales complejas → elige HunyuanVideo. Invierte 10-15 minutos por clip pero obtén máxima coherencia semántica y comprensión de lenguaje natural avanzado.

Si tienes 8GB de VRAM o necesitas iterar rápidamente → elige LTX Video. Genera clips en 1-2 minutos, perfecto para exploración y prototipado.

Generar vídeos desde texto en ComfyUI ya no es un experimento de laboratorio. Con crear vídeo ComfyUI usando Wan 2.2 en GPUs de 12GB o HunyuanVideo en máquinas más potentes, tienes herramientas profesionales en tu escritorio. El primer paso es descargar un workflow JSON, instalar las dependencias, y experimentar con prompts. En 2-3 intentos comprenderás cómo estructurar descripciones que el modelo interprete correctamente.

Si tienes una GPU subutilizada o quieres automatizar la creación de contenido visual sin depender de APIs pagas, descarga un workflow de referencia ahora y genera tu primer clip. Comienza con resoluciones bajas (480×832) para iterar rápido, y una vez domines el prompting, escala a 720p. El futuro de la creación de contenido es local, es asequible, y comienza en ComfyUI.

Preguntas frecuentes

¿Qué es mejor para empezar, Wan 2.2 o HunyuanVideo?
Wan 2.2 T2V 1.3B si tienes 12GB VRAM. HunyuanVideo si tienes 24GB y quieres la mejor calidad. LTX Video es la mejor opción para iteración rápida con 8GB. Los tres siguen un flujo de nodos similar en ComfyUI, solo cambian los nombres de los nodos específicos del modelo.
¿Cómo escribir un buen prompt para text-to-video?
Estructura recomendada: [sujeto + acción] + [entorno + iluminación] + [movimiento de cámara] + [calidad]. Ejemplo: 'A woman in a red dress walks through a sunlit forest, leaves falling, slow camera pan right, cinematic, 4K'. HunyuanVideo entiende lenguaje natural más complejo. Wan 2.2 prefiere prompts cortos y directos en inglés.
¿Cuántos frames debo usar para un vídeo de 5 segundos?
A 24fps necesitas 120 frames para 5 segundos, pero estos modelos raramente generan más de 49-97 frames de calidad. Para clips de 2-3 segundos (33-73 frames a 24fps) los resultados son mucho más consistentes. Para vídeos más largos, genera clips cortos y únelos en post-producción.
¿Por qué el vídeo generado se ve borroso o con artefactos?
Causas habituales: resolución demasiado alta para la VRAM disponible (reduce a 480p primero), steps insuficientes (usa mínimo 20 steps), o el modelo no está diseñado para esa resolución. Wan 2.2 1.3B está optimizado para 480p; forzarlo a 720p reduce calidad. Usa la resolución recomendada para cada modelo.
Compartir X LinkedIn

También te puede interesar