ComfyLab
Wan 2.1 I2V en ComfyUI: Convierte una Imagen en Vídeo Cinematográfico

Wan 2.1 I2V en ComfyUI: Convierte una Imagen en Vídeo Cinematográfico

12GB VRAM VRAM Avanzado 8 min
Savien

El error más común al intentar generar vídeo con IA local es empezar directamente con text-to-video y esperar que el modelo invente el personaje, la composición y el movimiento al mismo tiempo. Wan 2.1 I2V plantea un flujo diferente: primero creas la imagen y luego la animas. Eso cambia completamente el nivel de control que tienes.

Este artículo monta el workflow completo en ComfyUI, con parámetros probados para los casos de uso más habituales: retrato, producto y escena cinematográfica.

🏗️ Workflow: Wan 2.1 I2V Cinemático

🧠 VRAM: 12GB - 24GB 📡 MODEL: Wan 2.1 I2V 14B / 1.3B

Ejemplo real generado con este workflow

Generado en local con Wan 2.1 I2V 14B (GGUF Q3_K_S) sobre una RTX 3090, a partir de una imagen fija generada con FLUX.1 Dev


Por qué image-to-video en lugar de text-to-video

Text-to-video genera todo desde el prompt: personaje, composición, estilo, movimiento. El modelo tiene que resolver demasiadas variables a la vez y el resultado es impredecible — especialmente para personajes concretos o productos específicos.

Image-to-video separa ese problema en dos fases que controlas de forma independiente:

  1. Generación del keyframe — FLUX, Juggernaut XL o cualquier modelo de imagen para crear la imagen inicial. Tienes control total sobre personaje, iluminación, composición y estilo.
  2. Animación del keyframe — Wan I2V añade movimiento manteniendo la referencia visual. El modelo sabe qué conservar porque lo tiene delante.

El resultado es predecible, iterable y eficiente. Ajustas el movimiento sin regenerar el personaje. Arreglas manos o fondos antes de animar, no después.


Requisitos

  • ComfyUI actualizado.
  • Extension Wan Video para ComfyUI (busca “WanVideo” en ComfyUI Manager).
  • ComfyUI-VideoHelperSuite para exportar MP4.
  • Modelo Wan 2.1 I2V: la versión 14B para calidad máxima o la 1.3B para GPUs de 8-12GB.
  • ffmpeg instalado en el sistema para exportar vídeo.
  • Imagen inicial en ratio 16:9 (horizontal) o 9:16 (vertical).

Para la imagen inicial puedes usar el workflow del artículo de generación de imágenes con ComfyUI o la del workflow de FLUX Kontext si quieres editar primero la imagen.


Construir el workflow

Grupo 1 — Imagen inicial

Load Image — Carga el keyframe. La calidad de la imagen inicial determina directamente la calidad del vídeo. Manos mal generadas, fondo ruidoso, artefactos: todo eso se amplifica en el clip. No lo dejes para después.

Image Resize — Wan I2V espera dimensiones múltiplo de 8, preferiblemente de la lista de resoluciones nativas del modelo.

FormatoWidthHeight
Horizontal 16:9832480
Vertical 9:16480832
Cuadrado640640
Horizontal HD1280720

Empieza con 480p para desarrollo, sube a 720p solo cuando el movimiento funcione.

Grupo 2 — Carga del modelo Wan

WanVideoModelLoader

ParámetroValor
modelwan2.1_i2v_14B.safetensors (o 1.3B para low VRAM)
weight_dtypebf16 o fp8 según tu GPU
offloadactivado si tienes menos de 24GB VRAM

WanVideoVAELoader — Carga el VAE de vídeo. Necesario por separado del modelo principal en la mayoría de wrappers.

WanVideoImageEncode — El equivalente al Kontext Image Encode del workflow de imagen: codifica el keyframe en el espacio de condicionamiento que el modelo de vídeo usa como referencia.

Entrada: imagen redimensionada. Salida: condicionamiento de imagen → KSampler.

Grupo 3 — Prompt de movimiento

WanVideoTextEncode positivo — El prompt de movimiento es diferente al prompt de imagen. No describes el aspecto del sujeto — eso ya lo tiene la imagen de referencia. Describes exclusivamente el movimiento y la cámara.

cinematic slow camera push-in, subtle parallax movement, 
natural breathing motion, soft wind moving hair and clothes, 
realistic lighting, stable character identity, 
smooth motion, high quality video

WanVideoTextEncode negativo

flicker, morphing face, extra limbs, warped hands, fast motion, 
camera shake, low quality, blurry, distorted, text, watermark, 
jump cut, scene change

Grupo 4 — Sampling de vídeo

WanVideoSampler

ParámetroValor inicialAjuste
seedfijoCambia solo cuando el movimiento base funcione
frames33Sube a 49 en producción
steps25-3020 para pruebas rápidas
cfg5.0Rango útil: 4-8
sampleruni_pcdpmpp_2m como alternativa
schedulernormal
motion_strength0.5Ver tabla abajo

El motion_strength es el parámetro que más afecta al resultado. Controla qué tan dinámico es el clip:

motion_strengthResultado
0.2 – 0.4Movimiento mínimo. Ideal para producto o retrato estático.
0.4 – 0.6Movimiento natural. Cabello, ropa, respiración.
0.6 – 0.8Movimiento pronunciado. Escenas cinematográficas con cámara activa.
0.8+Movimiento exagerado. Riesgo de deformación en sujetos complejos.

Grupo 5 — Decode y exportación

WanVideoVAEDecode — Convierte los latentes de vídeo a frames de imagen.

VHS_VideoCombine (de VideoHelperSuite)

ParámetroValor
frame_rate16 o 24 fps
formatvideo/h264-mp4
filename_prefixcomfylab_wan_i2v
save_outputtrue

Con 24fps y 33 frames obtienes un clip de 1.37 segundos. Con 49 frames: 2.04 segundos. Para Reels o Shorts necesitas concatenar varios clips o generar directamente con más frames.

Diagrama de conexiones

Load Image → Image Resize → WanVideoImageEncode → WanVideoSampler (image_condition)
WanVideoModelLoader → WanVideoSampler (model)
WanVideoVAELoader → WanVideoVAEDecode (vae)
WanVideoTextEncode (+/-) → WanVideoSampler (positive/negative)
WanVideoSampler → WanVideoVAEDecode → VHS_VideoCombine

Pipeline completo recomendado

Para producción de contenido en ComfyLab el flujo de trabajo es:

  1. Generar keyframe con FLUX o Juggernaut XL (txt2img a 1024px).
  2. Corregir problemas con inpainting — especialmente manos y fondos. La guía de inpainting de manos cubre este paso.
  3. Animar con Wan I2V a 480p, 33 frames para prueba.
  4. Validar el movimiento y afinar motion_strength + prompt.
  5. Generar versión final a 720p, 49 frames si la GPU lo permite.
  6. Exportar en tres formatos: 16:9 para YouTube, 9:16 recortado para Reels, GIF/WebP para el artículo.

Prompts de movimiento por caso de uso

Retrato:

slow cinematic push-in toward the subject, 
same face and pose throughout, 
gentle wind moves hair slightly, 
subtle eye blink, realistic skin, stable identity

Producto:

smooth rotating product showcase, 
subtle studio light reflections on the surface, 
clean white background, premium commercial video, 
no deformation, no camera shake

Arquitectura o escena:

slow drone-like camera movement through the space, 
realistic parallax, sunlight changes softly, 
stable geometry, cinematic color grading

Escena de acción controlada:

medium tracking shot following the subject, 
walks from left to right at steady pace, 
background stays coherent, 
cinematic motion blur on background, sharp subject

Ajuste de resolución y frames por GPU

GPUModeloResoluciónFramesTiempo estimado
RTX 3060 12GB1.3B480p333-5 min
RTX 3080 10GB1.3B480p496-9 min
RTX 3090 24GB14B480p338-12 min
RTX 4070 Ti 12GB14B480p336-10 min
RTX 4090 24GB14B720p4915-25 min

Los tiempos son aproximados con offload activado. Sin offload — GPU con VRAM suficiente para todo el modelo — se reducen un 30-40%.


Solución de problemas

El personaje se deforma durante el movimiento

Baja motion_strength a 0.4 y reduce los frames a 33. La deformación suele aparecer más tarde en clips largos. Si el problema viene de la imagen inicial — manos mal generadas, fondos complejos — arréglala antes de animar.

El clip parpadea o tiene flicker

Baja el CFG a 4.0-5.0. El parpadeo suele indicar que el sampler oscila entre estados: un CFG más bajo da más continuidad temporal. Añade no flicker, smooth motion al positivo y flicker, strobing al negativo.

El movimiento es casi inexistente

Sube motion_strength a 0.6-0.7. El prompt tiene que describir movimiento de cámara o del sujeto de forma específica — verbos, dirección, velocidad. Un prompt que detalla el aspecto visual sin mencionar movimiento produce clips casi estáticos con cualquier valor de motion_strength.

VHS_VideoCombine no exporta MP4

Verifica que ffmpeg esté instalado y en el PATH del sistema. En Linux: which ffmpeg. En Windows: ffmpeg -version en cmd. Si ffmpeg no está disponible, usa el formato GIF o WebP como alternativa temporal.

Out of memory con el modelo 14B

Activa offload completo en el loader. Baja la resolución a 480p y los frames a 33. Si sigue fallando, prueba con el modelo 1.3B — la diferencia de calidad es notable pero los requerimientos bajan a 8GB VRAM.


Wan 2.1 I2V es la pieza que cierra el pipeline de contenido visual: imagen → edición → animación. El control sobre el resultado final, comparado con text-to-video puro, es lo que hace viable producir contenido de calidad consistente sin regenerar todo desde cero en cada iteración. Si tienes margen de VRAM, el siguiente experimento natural es combinar este workflow con ControlNet de pose para controlar también la trayectoria del movimiento.

Preguntas frecuentes

¿Cuántos frames debo generar para empezar?
Empieza siempre con 33 frames a 480p. Así validas el prompt de movimiento y el comportamiento del personaje en menos de 5 minutos. Solo sube a 49 frames y resolución mayor cuando el movimiento funcione exactamente como quieres.
¿Wan 2.1 I2V es mejor que text-to-video para personajes?
Para mantener un personaje, producto o composición específica, sí. La imagen inicial da al modelo una referencia visual concreta que reduce la variabilidad. Text-to-video es mejor cuando no tienes una imagen de partida y quieres explorar composiciones nuevas.
¿Puedo usar una imagen generada con FLUX o Qwen como imagen inicial?
Sí, y es el pipeline recomendado. Genera el keyframe perfecto con FLUX, corrígelo con inpainting si hace falta y pásalo a Wan I2V. Este flujo da mucho más control que intentar conseguir todo con el prompt de texto del modelo de video.
¿Por qué el personaje se deforma durante el movimiento?
Dos causas principales: motion_strength demasiado alto, o imagen de entrada con detalles problemáticos (manos mal generadas, textos, fondos complejos). Baja el motion a 0.4-0.5 y usa una imagen inicial limpia. Los problemas de la imagen de entrada se amplifican en el video.
¿Cuánto tarda con una RTX 3090?
Con el modelo 14B a 480p y 33 frames: 8-12 minutos con offload activado. A 720p y 49 frames: 25-40 minutos. El modelo 1.3B es 4-5x más rápido pero con calidad notablemente inferior.
Compartir X LinkedIn

También te puede interesar