Image to Video en ComfyUI: Wan 2.2 y HunyuanVideo Paso a Paso
Convertir una imagen estática en un video con movimiento fluido es una de las capacidades más impresionantes de la IA generativa actual. Si trabajas con ComfyUI y tienes una GPU con al menos 12GB de VRAM, ahora puedes animar tus imágenes directamente en la interfaz sin depender de herramientas externas. Esta guía te mostrará cómo configurar y usar los dos modelos más potentes disponibles para image to video en ComfyUI: Wan 2.2 y HunyuanVideo, con workflows descargables y configuraciones optimizadas para diferentes capacidades de hardware.
Resultado real del workflow: antes y después
Imagen estática de partida — generada con FLUX.1 Dev
Vídeo real generado con Wan 2.1 I2V (GGUF Q3_K_S) a partir de la imagen anterior
De un vistazo: Wan 2.2 vs HunyuanVideo
| Aspecto | Wan 2.2 1.3B | Wan 2.2 14B | HunyuanVideo |
|---|---|---|---|
| VRAM Mínima | 12GB | 14GB (offload) | 16GB (offload) |
| VRAM Ideal | 12GB | 24GB | 24GB |
| Tiempo Gen. (33 frames) | 8-12 min | 12-18 min | 18-25 min |
| Fluidez de Movimiento | Muy buena | Excelente | Excelente+ |
| Coherencia Temporal | Buena | Muy buena | Muy buena |
| Mejor para | 12GB VRAM | Calidad máxima | Movimiento ultra fluido |
¿Qué es Image to Video (I2V) en ComfyUI?
Image to Video toma una imagen como punto de partida y genera una secuencia de fotogramas que extienden el contenido original con movimiento natural. A diferencia de la interpolación tradicional, los modelos de IA generan contenido nuevo manteniendo coherencia visual en todo momento.
En ComfyUI, esta funcionalidad se implementa mediante nodos especializados que procesan la imagen inicial, aplican instrucciones de movimiento mediante prompts textuales y generan el video frame a frame. El resultado es completamente personalizable: controlas la cantidad de fotogramas, la velocidad, la intensidad del movimiento y la dirección exacta que deseas que tome la animación.
💡 Consejo: Comienza siempre con 33 fotogramas a resolución 480p para validar tu prompt antes de aumentar los parámetros. Así ahorras tiempo en pruebas.
Wan 2.2 I2V: La Opción Versátil
Wan 2.2 es un modelo desarrollado por Alibaba que ofrece una excelente relación entre calidad y eficiencia de VRAM. Su versión I2V está optimizada específicamente para animar imágenes con coherencia temporal superior a versiones anteriores.
Requisitos de Hardware y Modelos Disponibles
Wan 2.2 I2V viene en dos variantes:
- wan2.2-i2v-14B: Modelo completo con máxima calidad. Requiere 24GB de VRAM sin optimizaciones, o 14GB con sequential CPU offload activado.
- wan2.2-i2v-1.3B: Versión ligera ideal para GPUs de 12GB. Genera resultados muy competitivos con menor consumo de memoria.
Si tienes una GPU de 12GB (como RTX 3060 o RTX 4060 Ti), el modelo 1.3B es tu mejor opción. Con 16-24GB, puedes usar el modelo 14B con offload habilitado para mejor calidad.
Nodos Principales del Workflow para Animar Imagen
El workflow de Wan image to video en ComfyUI utiliza seis nodos esenciales:
- WanVideoModelLoader: Carga el modelo seleccionado (14B o 1.3B). Aquí es donde activas
sequential_cpu_offloadsi necesitas reducir VRAM. - WanVideoTextEncode: Procesa el prompt de movimiento en embeddings de texto.
- WanVideoImageEncode: Codifica la imagen inicial en el espacio latente del modelo.
- WanVideoSampler: Realiza el muestreo iterativo para generar la secuencia de fotogramas.
- WanVideoVAEDecode: Decodifica los fotogramas latentes a píxeles reales.
- VHS_VideoCombine: Combina los fotogramas y exporta el video en formato MP4 o WebM.
Configuración de Parámetros Clave
num_frames controla la cantidad de fotogramas generados. El valor por defecto es 33 fotogramas, que produce un video de aproximadamente 2 segundos a 16 FPS. Aumenta este valor para videos más largos, pero ten en cuenta que consume más VRAM y tiempo.
fps define la velocidad de reproducción. Los valores recomendados son 16-24 FPS. Con 33 fotogramas a 16 FPS obtienes 2 segundos; a 24 FPS, 1.4 segundos. Elige según el tipo de movimiento: movimientos lentos funcionan mejor con 16 FPS, acciones rápidas con 20-24 FPS.
Prompt de Movimiento: Aquí describes exactamente qué movimiento deseas. Algunos ejemplos que funcionan bien:
- “the person walks slowly forward, camera pans right”
- “ocean waves crash gently on the shore, soft foam movement”
- “clouds drift slowly across the sky, wind-blown motion”
Lo crítico aquí es ser específico. Cuanto más detalles incluyas sobre tanto el movimiento del sujeto como el del “observador” (cámara), mejores serán los resultados.
⚠️ Importante: Wan 2.2 NO utiliza
motion_bucket_id(ese parámetro es de Stable Video Diffusion). La intensidad del movimiento se controla indirectamente mediante el prompt y otros parámetros del sampler.
Solución de Problemas Comunes en Wan 2.2
Error de Out of Memory (OOM) con modelo 14B: Activa sequential_cpu_offload en el nodo WanVideoModelLoader. Esto ralentiza la generación (~15-20 minutos para 33 fotogramas en CPU offload) pero hace posible el uso en 14GB.
Temporal blur en fotogramas: Este problema fue común en versiones anteriores pero ya está corregido en Wan 2.2. No necesitas ajustar parámetros adicionales.
Video demasiado estático: Aumenta la especificidad del prompt de movimiento. Frases vagas como “moving” producen resultados sutiles. Sé descriptivo: “rapidly spinning, dynamic camera rotation”.
HunyuanVideo I2V: Máxima Fluidez
HunyuanVideo, desarrollado por Tencent, es conocido por producir movimiento más fluido y coherente. Su implementación I2V en ComfyUI es relativamente nueva pero ya ofrece resultados impresionantes en términos de continuidad visual y naturalidad del movimiento.
Arquitectura de Nodos
El HunyuanVideo ComfyUI workflow utiliza cuatro nodos principales:
- HunyuanVideoModelLoader: Carga el modelo HunyuanVideo-I2V. Aquí puedes activar
enable_sequential_cpu_offloadpara reducir VRAM. - HunyuanVideoImageEncode: Procesa la imagen inicial.
- HunyuanVideoSampler: Genera la secuencia de fotogramas con parámetros de guía de movimiento.
- HunyuanVideoVAEDecode: Convierte los fotogramas latentes a píxeles.
Requisitos de VRAM y Optimizaciones
HunyuanVideo-I2V requiere 24GB de VRAM sin optimizaciones. Sin embargo, con enable_sequential_cpu_offload habilitado, funciona en 16GB, aunque la generación es más lenta (~18-25 minutos para 33 fotogramas).
Para GPUs de 12GB, no es recomendable usar HunyuanVideo a menos que dispongas de extensiones de VRAM compartida (como NVIDIA Shared GPU Memory en sistemas multi-GPU).
Configuración Específica de HunyuanVideo
Los parámetros de HunyuanVideo son similares a Wan 2.2 pero con algunas diferencias notables:
- num_frames: Rango típico 33-65 fotogramas. HunyuanVideo maneja bien secuencias más largas.
- fps: 16-24 FPS recomendado.
- Prompt de movimiento: Funciona de forma similar, pero HunyuanVideo es más sensible a instrucciones de cámara. Incluir “steady camera” o “dynamic camera movement” produce diferencias notables.
📌 A tener en cuenta: HunyuanVideo ofrece movimiento ultra fluido pero requiere 16GB mínimo; ideal si priorizas calidad sobre velocidad de generación.
Instalación y Descarga de Modelos
Paso 1: Instalar ComfyUI Manager
Descarga e instala ComfyUI Manager. Este gestor de nodos simplifica enormemente la instalación de extensiones.
Paso 2: Instalar Nodos Wan 2.2
En ComfyUI Manager, busca “Wan” e instala comfyui-wan. Los nodos necesarios se descargarán automáticamente.
Paso 3: Descargar Modelos
Los modelos deben colocarse en ComfyUI/models/diffusion_models/:
- Para Wan 2.2: Descarga
wan2.2-i2v-1.3B.safetensorsowan2.2-i2v-14B.safetensorsdesde Hugging Face (repositorio oficial de Alibaba). - Para HunyuanVideo: Descarga
HunyuanVideo-I2V.safetensorsdesde Hugging Face (repositorio de Tencent).
Los archivos tienen tamaños entre 3.5GB (1.3B) y 28GB (14B). Asegúrate de tener suficiente espacio en disco.
Paso 4: Verificar Instalación
Abre ComfyUI, ve a “Add Node” y busca “Wan” o “Hunyuan”. Los nodos deberían aparecer en la lista.
Guía Paso a Paso: Animar tu Primera Imagen
Con Wan 2.2 1.3B
- Carga la imagen: Usa el nodo “Load Image” para seleccionar tu imagen (1024x576 o similar).
- Configura el prompt: En WanVideoTextEncode, escribe tu descripción de movimiento. Ejemplo: “person runs forward quickly, camera follows closely”.
- Ajusta parámetros:
- num_frames: 33
- fps: 16
- seed: elige un número aleatorio o fija uno si deseas reproducibilidad
- Ejecuta: Presiona “Queue Prompt”. La generación tomará 8-12 minutos.
- Exporta: El video se guardará en
ComfyUI/output/.
Con HunyuanVideo
El proceso es idéntico, pero:
- Activa
enable_sequential_cpu_offloadsi tienes 16-20GB de VRAM - La generación tomará 18-25 minutos
- Los resultados tendrán movimiento más fluido
Preguntas Frecuentes
P: ¿Qué diferencia hay entre Wan 2.1 y Wan 2.2 para image to video?
R: Wan 2.2 mejora la coherencia temporal (menos parpadeo entre frames) y la comprensión del prompt de movimiento. Los nodos son los mismos (WanVideoModelLoader, etc.) pero los pesos del modelo son diferentes. Si ya tienes Wan 2.1 instalado, puedes seguir usándolo; 2.2 es una actualización incremental, no un cambio radical de arquitectura.
P: ¿Cuántos frames debo generar para empezar?
R: Siempre empieza con 33 frames a 480p (854×480px). Así validas el prompt de movimiento y el comportamiento general en menos de 5 minutos. Solo sube a 49+ frames y resolución mayor cuando el movimiento funcione correctamente. Cambia solo un parámetro a la vez.
P: ¿Puedo animar imágenes generadas con Flux o SDXL?
R: Sí. Wan 2.2 y HunyuanVideo aceptan cualquier imagen como input, independientemente de cómo se generó. La imagen de entrada define el primer frame; el prompt de movimiento describe cómo debe moverse. Imágenes con composición clara y fondo simple dan mejores resultados.
P: ¿Por qué el vídeo generado se congela o tiene muy poco movimiento?
R: El prompt de movimiento probablemente es demasiado genérico o contradictorio. Sé específico: en lugar de ‘moving’, escribe ‘the person raises their right hand slowly, camera stays fixed’. También verifica que num_frames sea al menos 33; con 16 frames el movimiento apenas se percibe.
P: ¿Qué resolución de imagen debo usar?
R: Las resoluciones recomendadas son 720p (1280x720) o 576p (1024x576). Resoluciones más altas consumirán más VRAM. Ambos modelos aceptan imágenes entre 512x512 y 1024x1024.
P: ¿Puedo generar videos más largos que 33 fotogramas?
R: Sí, pero aumentará el consumo de VRAM. Con Wan 2.2 1.3B puedes llegar a 60-80 fotogramas en 12GB. HunyuanVideo soporta hasta 145 fotogramas teóricamente, pero en la práctica 65 es un buen límite con 24GB.
P: ¿Cómo hago que el movimiento sea más o menos intenso?
R: En Wan 2.2, la intensidad se controla mediante el prompt. Usa verbos de acción fuertes (“rapidly”, “violently”) para movimiento intenso, o suave (“slowly”, “gently”) para movimiento sutil. En HunyuanVideo, algunos parámetros del sampler como cfg_scale también afectan la intensidad.
P: ¿Puedo usar estos modelos en CPU?
R: Técnicamente sí, pero la generación tomaría horas. No es práctico. Necesitas una GPU moderna (RTX 3060 o superior).
Sigue leyendo
Si quieres profundizar en técnicas avanzadas de prompting para video, consulta nuestra guía sobre cómo escribir prompts de movimiento efectivos en modelos de generación de video. También te recomendamos explorar nuestro artículo sobre optimización de VRAM en ComfyUI para exprimir al máximo el rendimiento de tu GPU. Finalmente, si buscas comparar estos modelos con otras alternativas como CogVideoX o Stable Video Diffusion, tenemos un análisis completo sobre los mejores modelos de video generativo en 2024.
🏆 Nuestra recomendación
Si tienes 12GB de VRAM: Elige Wan 2.2 1.3B. Es la opción más accesible, genera videos de buena calidad en 8-12 minutos y es perfecta para experimentar sin frustración.
Si tienes 16-20GB de VRAM: Usa Wan 2.2 14B con offload o HunyuanVideo con offload. Ambos ofrecen mejor calidad que el modelo 1.3B, aunque con tiempos de generación más largos.
Si tienes 24GB+ de VRAM: Opta por HunyuanVideo sin offload para máxima fluidez y coherencia temporal. Es la mejor opción si priorizas calidad sobre velocidad.
Comienza siempre con 33 frames a 480p para validar tu prompt de movimiento antes de aumentar resolución o duración.
Siguientes pasos en ComfyUI
Primeros pasos
Preguntas frecuentes
- ¿Qué diferencia hay entre Wan 2.1 y Wan 2.2 para image to video?
- Wan 2.2 mejora la coherencia temporal (menos parpadeo entre frames) y la comprensión del prompt de movimiento. Los nodos son los mismos (WanVideoModelLoader, etc.) pero los pesos del modelo son diferentes. Si ya tienes Wan 2.1 instalado, puedes seguir usándolo; 2.2 es una actualización incremental, no un cambio radical de arquitectura.
- ¿Cuántos frames debo generar para empezar?
- Siempre empieza con 33 frames a 480p (854×480px). Así validas el prompt de movimiento y el comportamiento general en menos de 5 minutos. Solo sube a 49+ frames y resolución mayor cuando el movimiento funcione correctamente. Cambiar solo un parámetro a la vez.
- ¿Puedo animar imágenes generadas con Flux o SDXL?
- Sí. Wan 2.2 y HunyuanVideo aceptan cualquier imagen como input, independientemente de cómo se generó. La imagen de entrada define el primer frame; el prompt de movimiento describe cómo debe moverse. Imágenes con composición clara y fondo simple dan mejores resultados.
- ¿Por qué el vídeo generado se congela o tiene muy poco movimiento?
- El prompt de movimiento probablemente es demasiado genérico o contradictorio. Sé específico: en lugar de 'moving', escribe 'the person raises their right hand slowly, camera stays fixed'. También verifica que num_frames sea al menos 33; con 16 frames el movimiento apenas se percibe.