ComfyLab
Image to Video en ComfyUI: Wan 2.2 y HunyuanVideo Paso a Paso

Image to Video en ComfyUI: Wan 2.2 y HunyuanVideo Paso a Paso

12GB VRAM VRAM Avanzado 10 min Wan 2.2 I2V / HunyuanVideo
Savien

Image to Video en ComfyUI: Wan 2.2 y HunyuanVideo Paso a Paso

Convertir una imagen estática en un video con movimiento fluido es una de las capacidades más impresionantes de la IA generativa actual. Si trabajas con ComfyUI y tienes una GPU con al menos 12GB de VRAM, ahora puedes animar tus imágenes directamente en la interfaz sin depender de herramientas externas. Esta guía te mostrará cómo configurar y usar los dos modelos más potentes disponibles para image to video en ComfyUI: Wan 2.2 y HunyuanVideo, con workflows descargables y configuraciones optimizadas para diferentes capacidades de hardware.

Resultado real del workflow: antes y después

Imagen estática de partida Imagen estática de partida — generada con FLUX.1 Dev

Vídeo real generado con Wan 2.1 I2V (GGUF Q3_K_S) a partir de la imagen anterior


De un vistazo: Wan 2.2 vs HunyuanVideo

AspectoWan 2.2 1.3BWan 2.2 14BHunyuanVideo
VRAM Mínima12GB14GB (offload)16GB (offload)
VRAM Ideal12GB24GB24GB
Tiempo Gen. (33 frames)8-12 min12-18 min18-25 min
Fluidez de MovimientoMuy buenaExcelenteExcelente+
Coherencia TemporalBuenaMuy buenaMuy buena
Mejor para12GB VRAMCalidad máximaMovimiento ultra fluido

¿Qué es Image to Video (I2V) en ComfyUI?

Image to Video toma una imagen como punto de partida y genera una secuencia de fotogramas que extienden el contenido original con movimiento natural. A diferencia de la interpolación tradicional, los modelos de IA generan contenido nuevo manteniendo coherencia visual en todo momento.

En ComfyUI, esta funcionalidad se implementa mediante nodos especializados que procesan la imagen inicial, aplican instrucciones de movimiento mediante prompts textuales y generan el video frame a frame. El resultado es completamente personalizable: controlas la cantidad de fotogramas, la velocidad, la intensidad del movimiento y la dirección exacta que deseas que tome la animación.

💡 Consejo: Comienza siempre con 33 fotogramas a resolución 480p para validar tu prompt antes de aumentar los parámetros. Así ahorras tiempo en pruebas.

Wan 2.2 I2V: La Opción Versátil

Wan 2.2 es un modelo desarrollado por Alibaba que ofrece una excelente relación entre calidad y eficiencia de VRAM. Su versión I2V está optimizada específicamente para animar imágenes con coherencia temporal superior a versiones anteriores.

Requisitos de Hardware y Modelos Disponibles

Wan 2.2 I2V viene en dos variantes:

  • wan2.2-i2v-14B: Modelo completo con máxima calidad. Requiere 24GB de VRAM sin optimizaciones, o 14GB con sequential CPU offload activado.
  • wan2.2-i2v-1.3B: Versión ligera ideal para GPUs de 12GB. Genera resultados muy competitivos con menor consumo de memoria.

Si tienes una GPU de 12GB (como RTX 3060 o RTX 4060 Ti), el modelo 1.3B es tu mejor opción. Con 16-24GB, puedes usar el modelo 14B con offload habilitado para mejor calidad.

Nodos Principales del Workflow para Animar Imagen

El workflow de Wan image to video en ComfyUI utiliza seis nodos esenciales:

  1. WanVideoModelLoader: Carga el modelo seleccionado (14B o 1.3B). Aquí es donde activas sequential_cpu_offload si necesitas reducir VRAM.
  2. WanVideoTextEncode: Procesa el prompt de movimiento en embeddings de texto.
  3. WanVideoImageEncode: Codifica la imagen inicial en el espacio latente del modelo.
  4. WanVideoSampler: Realiza el muestreo iterativo para generar la secuencia de fotogramas.
  5. WanVideoVAEDecode: Decodifica los fotogramas latentes a píxeles reales.
  6. VHS_VideoCombine: Combina los fotogramas y exporta el video en formato MP4 o WebM.

Configuración de Parámetros Clave

num_frames controla la cantidad de fotogramas generados. El valor por defecto es 33 fotogramas, que produce un video de aproximadamente 2 segundos a 16 FPS. Aumenta este valor para videos más largos, pero ten en cuenta que consume más VRAM y tiempo.

fps define la velocidad de reproducción. Los valores recomendados son 16-24 FPS. Con 33 fotogramas a 16 FPS obtienes 2 segundos; a 24 FPS, 1.4 segundos. Elige según el tipo de movimiento: movimientos lentos funcionan mejor con 16 FPS, acciones rápidas con 20-24 FPS.

Prompt de Movimiento: Aquí describes exactamente qué movimiento deseas. Algunos ejemplos que funcionan bien:

  • “the person walks slowly forward, camera pans right”
  • “ocean waves crash gently on the shore, soft foam movement”
  • “clouds drift slowly across the sky, wind-blown motion”

Lo crítico aquí es ser específico. Cuanto más detalles incluyas sobre tanto el movimiento del sujeto como el del “observador” (cámara), mejores serán los resultados.

⚠️ Importante: Wan 2.2 NO utiliza motion_bucket_id (ese parámetro es de Stable Video Diffusion). La intensidad del movimiento se controla indirectamente mediante el prompt y otros parámetros del sampler.

Solución de Problemas Comunes en Wan 2.2

Error de Out of Memory (OOM) con modelo 14B: Activa sequential_cpu_offload en el nodo WanVideoModelLoader. Esto ralentiza la generación (~15-20 minutos para 33 fotogramas en CPU offload) pero hace posible el uso en 14GB.

Temporal blur en fotogramas: Este problema fue común en versiones anteriores pero ya está corregido en Wan 2.2. No necesitas ajustar parámetros adicionales.

Video demasiado estático: Aumenta la especificidad del prompt de movimiento. Frases vagas como “moving” producen resultados sutiles. Sé descriptivo: “rapidly spinning, dynamic camera rotation”.

HunyuanVideo I2V: Máxima Fluidez

HunyuanVideo, desarrollado por Tencent, es conocido por producir movimiento más fluido y coherente. Su implementación I2V en ComfyUI es relativamente nueva pero ya ofrece resultados impresionantes en términos de continuidad visual y naturalidad del movimiento.

Arquitectura de Nodos

El HunyuanVideo ComfyUI workflow utiliza cuatro nodos principales:

  1. HunyuanVideoModelLoader: Carga el modelo HunyuanVideo-I2V. Aquí puedes activar enable_sequential_cpu_offload para reducir VRAM.
  2. HunyuanVideoImageEncode: Procesa la imagen inicial.
  3. HunyuanVideoSampler: Genera la secuencia de fotogramas con parámetros de guía de movimiento.
  4. HunyuanVideoVAEDecode: Convierte los fotogramas latentes a píxeles.

Requisitos de VRAM y Optimizaciones

HunyuanVideo-I2V requiere 24GB de VRAM sin optimizaciones. Sin embargo, con enable_sequential_cpu_offload habilitado, funciona en 16GB, aunque la generación es más lenta (~18-25 minutos para 33 fotogramas).

Para GPUs de 12GB, no es recomendable usar HunyuanVideo a menos que dispongas de extensiones de VRAM compartida (como NVIDIA Shared GPU Memory en sistemas multi-GPU).

Configuración Específica de HunyuanVideo

Los parámetros de HunyuanVideo son similares a Wan 2.2 pero con algunas diferencias notables:

  • num_frames: Rango típico 33-65 fotogramas. HunyuanVideo maneja bien secuencias más largas.
  • fps: 16-24 FPS recomendado.
  • Prompt de movimiento: Funciona de forma similar, pero HunyuanVideo es más sensible a instrucciones de cámara. Incluir “steady camera” o “dynamic camera movement” produce diferencias notables.

📌 A tener en cuenta: HunyuanVideo ofrece movimiento ultra fluido pero requiere 16GB mínimo; ideal si priorizas calidad sobre velocidad de generación.

Instalación y Descarga de Modelos

Paso 1: Instalar ComfyUI Manager

Descarga e instala ComfyUI Manager. Este gestor de nodos simplifica enormemente la instalación de extensiones.

Paso 2: Instalar Nodos Wan 2.2

En ComfyUI Manager, busca “Wan” e instala comfyui-wan. Los nodos necesarios se descargarán automáticamente.

Paso 3: Descargar Modelos

Los modelos deben colocarse en ComfyUI/models/diffusion_models/:

  • Para Wan 2.2: Descarga wan2.2-i2v-1.3B.safetensors o wan2.2-i2v-14B.safetensors desde Hugging Face (repositorio oficial de Alibaba).
  • Para HunyuanVideo: Descarga HunyuanVideo-I2V.safetensors desde Hugging Face (repositorio de Tencent).

Los archivos tienen tamaños entre 3.5GB (1.3B) y 28GB (14B). Asegúrate de tener suficiente espacio en disco.

Paso 4: Verificar Instalación

Abre ComfyUI, ve a “Add Node” y busca “Wan” o “Hunyuan”. Los nodos deberían aparecer en la lista.

Guía Paso a Paso: Animar tu Primera Imagen

Con Wan 2.2 1.3B

  1. Carga la imagen: Usa el nodo “Load Image” para seleccionar tu imagen (1024x576 o similar).
  2. Configura el prompt: En WanVideoTextEncode, escribe tu descripción de movimiento. Ejemplo: “person runs forward quickly, camera follows closely”.
  3. Ajusta parámetros:
    • num_frames: 33
    • fps: 16
    • seed: elige un número aleatorio o fija uno si deseas reproducibilidad
  4. Ejecuta: Presiona “Queue Prompt”. La generación tomará 8-12 minutos.
  5. Exporta: El video se guardará en ComfyUI/output/.

Con HunyuanVideo

El proceso es idéntico, pero:

  • Activa enable_sequential_cpu_offload si tienes 16-20GB de VRAM
  • La generación tomará 18-25 minutos
  • Los resultados tendrán movimiento más fluido

Preguntas Frecuentes

P: ¿Qué diferencia hay entre Wan 2.1 y Wan 2.2 para image to video?

R: Wan 2.2 mejora la coherencia temporal (menos parpadeo entre frames) y la comprensión del prompt de movimiento. Los nodos son los mismos (WanVideoModelLoader, etc.) pero los pesos del modelo son diferentes. Si ya tienes Wan 2.1 instalado, puedes seguir usándolo; 2.2 es una actualización incremental, no un cambio radical de arquitectura.

P: ¿Cuántos frames debo generar para empezar?

R: Siempre empieza con 33 frames a 480p (854×480px). Así validas el prompt de movimiento y el comportamiento general en menos de 5 minutos. Solo sube a 49+ frames y resolución mayor cuando el movimiento funcione correctamente. Cambia solo un parámetro a la vez.

P: ¿Puedo animar imágenes generadas con Flux o SDXL?

R: Sí. Wan 2.2 y HunyuanVideo aceptan cualquier imagen como input, independientemente de cómo se generó. La imagen de entrada define el primer frame; el prompt de movimiento describe cómo debe moverse. Imágenes con composición clara y fondo simple dan mejores resultados.

P: ¿Por qué el vídeo generado se congela o tiene muy poco movimiento?

R: El prompt de movimiento probablemente es demasiado genérico o contradictorio. Sé específico: en lugar de ‘moving’, escribe ‘the person raises their right hand slowly, camera stays fixed’. También verifica que num_frames sea al menos 33; con 16 frames el movimiento apenas se percibe.

P: ¿Qué resolución de imagen debo usar?

R: Las resoluciones recomendadas son 720p (1280x720) o 576p (1024x576). Resoluciones más altas consumirán más VRAM. Ambos modelos aceptan imágenes entre 512x512 y 1024x1024.

P: ¿Puedo generar videos más largos que 33 fotogramas?

R: Sí, pero aumentará el consumo de VRAM. Con Wan 2.2 1.3B puedes llegar a 60-80 fotogramas en 12GB. HunyuanVideo soporta hasta 145 fotogramas teóricamente, pero en la práctica 65 es un buen límite con 24GB.

P: ¿Cómo hago que el movimiento sea más o menos intenso?

R: En Wan 2.2, la intensidad se controla mediante el prompt. Usa verbos de acción fuertes (“rapidly”, “violently”) para movimiento intenso, o suave (“slowly”, “gently”) para movimiento sutil. En HunyuanVideo, algunos parámetros del sampler como cfg_scale también afectan la intensidad.

P: ¿Puedo usar estos modelos en CPU?

R: Técnicamente sí, pero la generación tomaría horas. No es práctico. Necesitas una GPU moderna (RTX 3060 o superior).

Sigue leyendo

Si quieres profundizar en técnicas avanzadas de prompting para video, consulta nuestra guía sobre cómo escribir prompts de movimiento efectivos en modelos de generación de video. También te recomendamos explorar nuestro artículo sobre optimización de VRAM en ComfyUI para exprimir al máximo el rendimiento de tu GPU. Finalmente, si buscas comparar estos modelos con otras alternativas como CogVideoX o Stable Video Diffusion, tenemos un análisis completo sobre los mejores modelos de video generativo en 2024.



🏆 Nuestra recomendación

Si tienes 12GB de VRAM: Elige Wan 2.2 1.3B. Es la opción más accesible, genera videos de buena calidad en 8-12 minutos y es perfecta para experimentar sin frustración.

Si tienes 16-20GB de VRAM: Usa Wan 2.2 14B con offload o HunyuanVideo con offload. Ambos ofrecen mejor calidad que el modelo 1.3B, aunque con tiempos de generación más largos.

Si tienes 24GB+ de VRAM: Opta por HunyuanVideo sin offload para máxima fluidez y coherencia temporal. Es la mejor opción si priorizas calidad sobre velocidad.

Comienza siempre con 33 frames a 480p para validar tu prompt de movimiento antes de aumentar resolución o duración.

Preguntas frecuentes

¿Qué diferencia hay entre Wan 2.1 y Wan 2.2 para image to video?
Wan 2.2 mejora la coherencia temporal (menos parpadeo entre frames) y la comprensión del prompt de movimiento. Los nodos son los mismos (WanVideoModelLoader, etc.) pero los pesos del modelo son diferentes. Si ya tienes Wan 2.1 instalado, puedes seguir usándolo; 2.2 es una actualización incremental, no un cambio radical de arquitectura.
¿Cuántos frames debo generar para empezar?
Siempre empieza con 33 frames a 480p (854×480px). Así validas el prompt de movimiento y el comportamiento general en menos de 5 minutos. Solo sube a 49+ frames y resolución mayor cuando el movimiento funcione correctamente. Cambiar solo un parámetro a la vez.
¿Puedo animar imágenes generadas con Flux o SDXL?
Sí. Wan 2.2 y HunyuanVideo aceptan cualquier imagen como input, independientemente de cómo se generó. La imagen de entrada define el primer frame; el prompt de movimiento describe cómo debe moverse. Imágenes con composición clara y fondo simple dan mejores resultados.
¿Por qué el vídeo generado se congela o tiene muy poco movimiento?
El prompt de movimiento probablemente es demasiado genérico o contradictorio. Sé específico: en lugar de 'moving', escribe 'the person raises their right hand slowly, camera stays fixed'. También verifica que num_frames sea al menos 33; con 16 frames el movimiento apenas se percibe.
Compartir X LinkedIn

También te puede interesar