ComfyLab
Wan 2.2 en ComfyUI: Guía Completa I2V y T2V (1.3B y 14B)

Wan 2.2 en ComfyUI: Guía Completa I2V y T2V (1.3B y 14B)

12GB VRAM VRAM Avanzado 14 min Wan 2.2
Savien

Wan 2.2 en ComfyUI: Guía Completa I2V y T2V (1.3B y 14B)

Si trabajas con ComfyUI y necesitas convertir imágenes o texto en videos con calidad profesional, Wan 2.2 representa un salto significativo en coherencia temporal y fidelidad de movimiento. Lanzado por Alibaba como evolución de su versión anterior, este modelo ha mejorado notablemente en aspectos que afectan directamente a la calidad del output. En esta guía te mostraré exactamente cómo instalar Wan 2.2 en ComfyUI, configurarlo y optimizarlo según tu hardware disponible.

De un vistazo: Wan 2.2 ComfyUI

AspectoDetalles
ModeloGeneración de video I2V y T2V de Alibaba
Variantes1.3B (rápido, 12GB VRAM) y 14B (calidad, 24GB VRAM)
CompatibilidadComfyUI + custom node ComfyUI-WanVideo
Mejora vs 2.1Coherencia temporal, seguimiento de prompts, menos parpadeo
Tiempo generación2-4 min (1.3B) / 8-15 min (14B con offload)
Idioma recomendadoInglés para prompts de movimiento

Qué es Wan 2.2 y por qué actualizar desde Wan 2.1

Wan 2.2 es la versión mejorada del modelo de generación de video de Alibaba, diseñado específicamente para funcionar en ComfyUI sin cambios en la arquitectura de nodos respecto a su predecesor. La compatibilidad es total: los mismos nombres de nodos y estructura funcionan perfectamente con Wan 2.2 ComfyUI. Solo necesitas reemplazar los pesos del modelo.

Mejoras principales: Wan 2.2 vs Wan 2.1

Las diferencias entre versiones se concentran en tres aspectos técnicos que impactan directamente en la experiencia visual:

Coherencia temporal mejorada. Los frames mantienen mayor consistencia entre sí, reduciendo saltos abruptos que aparecían en versiones anteriores. Esto es especialmente notable en movimientos complejos o escenas con múltiples elementos dinámicos.

Seguimiento del prompt de movimiento. Wan 2.2 interpreta con mayor precisión las instrucciones de movimiento que incluyas en tu texto. Si escribes “cámara lenta hacia la derecha”, el modelo lo ejecuta con más fidelidad que antes, mejorando la calidad general del video generado.

Reducción de parpadeo entre frames. El flickering que a veces aparecía entre fotogramas consecutivos ha disminuido significativamente, resultando en videos más suaves al reproducir.

Estos cambios se logran únicamente mediante ajustes en los pesos del modelo. La arquitectura permanece idéntica, lo que significa una migración sencilla desde Wan 2.1.

👉 Conclusión rápida: Wan 2.2 mejora coherencia temporal y precisión de movimiento sin cambiar la estructura de nodos. Si usas Wan 2.1, actualizar es directo: solo reemplaza los archivos de modelo.

Modelos disponibles: 1.3B vs 14B

Wan 2.2 se distribuye en cuatro variantes que debes elegir según tu caso de uso y recursos de hardware:

ModeloTamañoArchivoUso PrincipalVRAM RequeridaTiempo/Video
I2V-1.3B2.7 GBwan2.2-i2v-1.3B.safetensorsConversión imagen-video rápida12 GB2-4 min
I2V-14B~30 GBwan2.2-i2v-14B.safetensorsConversión imagen-video máxima calidad24 GB (sin offload)8-12 min
T2V-1.3B2.7 GBwan2.2-t2v-1.3B.safetensorsGeneración texto-video rápida12 GB2-4 min
T2V-14B~30 GBwan2.2-t2v-14B.safetensorsGeneración texto-video máxima calidad24 GB (sin offload)8-12 min

Diferencias prácticas entre 1.3B y 14B

AspectoModelo 1.3BModelo 14B
✅ Velocidad (2-4 min)✅ Rápido para iteraciones❌ Lento (8-15 min con offload)
✅ Requisitos VRAM (12 GB)✅ Compatible con GPU mid-range❌ Requiere 24GB o 14-16GB con offload
❌ Calidad de movimiento❌ Buena pero básica✅ Movimiento fluido y detallado
❌ Interpretación de prompts❌ Parcial en escenas complejas✅ Excelente precisión
✅ Mejor para✅ Pruebas, TikTok/Reels, RTX 3060/4060 Ti✅ Producción profesional, RTX 4090

El modelo 1.3B es perfecto si trabajas con GPU de 12 GB (como RTX 3060 o RTX 4060 Ti) y necesitas procesamiento rápido sin sacrificar demasiada calidad. Genera videos coherentes en menos tiempo, ideal para iteraciones rápidas.

El modelo 14B ofrece mayor detalle, mejor interpretación de prompts complejos y mayor estabilidad en movimientos, pero requiere 24 GB de VRAM sin optimizaciones, o 14-16 GB si activas sequential CPU offload (con penalización de velocidad de 3-5x).

📌 A tener en cuenta: Los pesos Wan 2.2 de 14B vienen como un único archivo fusionado de ~30 GB, diferente a Wan 2.1 que se distribuía en múltiples shards. Esto simplifica la descarga pero requiere espacio de almacenamiento considerable.

👉 Conclusión rápida: Elige 1.3B para rapidez y compatibilidad con GPU de 12GB; elige 14B si tienes 24GB VRAM o necesitas máxima calidad con offload activado.

Instalación paso a paso: Instalar Wan ComfyUI

Paso 1: Descargar los modelos Wan 2.2

Accede a Hugging Face y busca el repositorio oficial de Wan 2.2 (usualmente alojado bajo el nombre de Alibaba). Descarga los archivos .safetensors correspondientes al modelo que necesites (I2V o T2V, 1.3B o 14B).

Ubicación de descarga recomendada:

  • Descarga a una carpeta temporal para verificar integridad
  • Verifica el hash SHA256 si está disponible en el repositorio

Coloca los archivos en la siguiente ruta dentro de tu instalación de ComfyUI:

ComfyUI/models/diffusion_models/

Si la carpeta diffusion_models no existe, créala manualmente. Los archivos deben estar directamente en esta carpeta sin subcarpetas adicionales.

Paso 2: Instalar el custom node ComfyUI-WanVideo

Abre el Manager en ComfyUI (botón en la interfaz principal) y busca “WanVideo”. Selecciona ComfyUI-WanVideo y haz clic en instalar. El manager descargará automáticamente el custom node y reiniciará ComfyUI.

Una vez reiniciado, verás nuevos nodos disponibles en la categoría de video:

  • WanVideoModelLoader (carga el modelo)
  • WanVideoTextEncode (procesa prompts de movimiento)
  • WanVideoImageEncode (procesa imagen base para I2V)
  • WanVideoSampler (genera los frames)
  • WanVideoVAEDecode (convierte a video)
  • VHS_VideoCombine (exporta MP4/WebM)

Paso 3: Verificar instalación

En ComfyUI, ve a Extras > Manage y busca “WanVideo” en la lista de custom nodes instalados. Debe aparecer con estado “Installed”.

👉 Conclusión rápida: La instalación de Wan 2.2 en ComfyUI es directa: descarga modelos, coloca en diffusion_models/, instala custom node desde Manager. Sin pasos adicionales de compilación.

Configuración de nodos: I2V (Image-to-Video)

Para convertir una imagen en video usando Wan 2.2 I2V ComfyUI, necesitas conectar los nodos en este orden:

1. Cargar la imagen

Usa un nodo Load Image estándar de ComfyUI para importar tu imagen base. Requisitos:

  • Formato: PNG, JPG, WebP
  • Resolución: 480×832 (vertical) o 832×480 (horizontal) para 1.3B; hasta 720×1280 para 14B
  • Asegúrate de que las dimensiones sean divisibles por 16

2. WanVideoModelLoader

Este nodo carga el modelo Wan 2.2 seleccionado. Parámetros clave:

  • model_name: Selecciona el archivo .safetensors que descargaste (ej: wan2.2-i2v-14B.safetensors)
  • sequential_cpu_offload: Activa esta opción si tu GPU tiene menos de 24 GB de VRAM. Reduce velocidad pero permite ejecutar el modelo 14B en 14-16 GB. Con 1.3B, deja desactivado para máxima velocidad.

3. WanVideoImageEncode

Conecta aquí la imagen del nodo Load Image. Este nodo prepara la imagen para que el modelo la entienda como punto de partida del video. No requiere parámetros adicionales.

4. WanVideoTextEncode

Aquí escribes el prompt de movimiento en inglés para mejores resultados. Algunos ejemplos que funcionan bien:

  • “The camera slowly pans to the right, revealing a mountain landscape”
  • “Static camera, a person walks forward with gentle hand gestures”
  • “Zoom in slowly on the subject while maintaining focus, cinematic motion”
  • “The camera follows from behind as the person walks forward, smooth tracking shot”

💡 Consejo: Incluir descripción de tipo de cámara (“static camera”, “slow pan”, “zoom”, “tracking shot”) mejora significativamente la coherencia del movimiento generado. Evita descripciones genéricas.

5. WanVideoSampler

Conecta los outputs de los nodos anteriores aquí. Parámetros esenciales:

  • num_frames: Comienza con 33 frames. Valores entre 25-65 son estables. Más frames no siempre = mejor calidad.
  • fps: Usa 16-24 fps. 24 fps es más suave pero requiere más frames para la misma duración.
  • steps: 20-30 pasos generalmente ofrecen buen balance calidad-velocidad. Aumenta a 40+ solo si necesitas máxima calidad.
  • seed: Fija un valor para reproducibilidad, o deja -1 para variación aleatoria.
  • cfg_scale: Valores entre 7-9 funcionan bien. Aumenta hasta 12 si quieres mayor fidelidad al prompt, pero evita valores extremos (>13) que causan artefactos.

6. WanVideoVAEDecode

Decodifica la salida del sampler en video real. Sin parámetros adicionales. Conecta el output del WanVideoSampler aquí.

7. VHS_VideoCombine

Conecta aquí el output del VAE Decode para exportar el video final en formato MP4 o WebM. Configura:

  • format: MP4 (recomendado) o WebM
  • fps: Debe coincidir con el fps del sampler
  • quality: 95 para máxima calidad

Configuración de nodos: T2V (Text-to-Video)

Para generar video desde texto usando Wan 2.2 T2V ComfyUI, el flujo es similar pero sin el nodo WanVideoImageEncode:

Flujo T2V completo:

  1. WanVideoModelLoader (igual que en I2V, pero selecciona variante T2V)
  2. WanVideoTextEncode (tu prompt completo en inglés, describiendo la escena completa)
  3. WanVideoSampler (mismos parámetros que I2V)
  4. WanVideoVAEDecode
  5. VHS_VideoCombine

La diferencia principal es que T2V genera el video completamente desde tu descripción textual, sin imagen base. Tu prompt debe ser más detallado y descriptivo que en I2V.

Ejemplo de prompt T2V efectivo: “A serene mountain landscape at sunrise, camera slowly pans from left to right revealing a misty valley below, cinematic motion, golden hour lighting”

Optimización de VRAM según tu hardware

GPU con 12 GB (RTX 3060, RTX 4060 Ti, RTX 3060 Ti, etc.)

Usa el modelo 1.3B sin sequential CPU offload activado. Generarás videos de buena calidad sin problemas de memoria. Tiempo de generación: 2-4 minutos por video de 33 frames.

Si insistes en usar el modelo 14B, activa sequential CPU offload en WanVideoModelLoader. Esperarás 10-15 minutos por video, pero obtendrás mejor calidad. Solo recomendado si necesitas máxima calidad y tienes paciencia.

GPU con 24 GB (RTX 4090, RTX 6000, A6000, etc.)

Puedes usar el modelo 14B sin sequential CPU offload para máxima velocidad. Tiempo de generación: 3-6 minutos por video de 33 frames. Desactiva el offload para evitar ralentizaciones innecesarias.

GPU con 16-20 GB (RTX 4080, RTX 5000, RTX 4070 Ti, etc.)

El modelo 14B con sequential CPU offload activado es tu mejor opción. Ofrece excelente balance entre calidad y velocidad de procesamiento (8-12 minutos por video).

👉 Conclusión rápida: 12GB → usa 1.3B; 16-20GB → usa 14B con offload; 24GB+ → usa 14B sin offload para máxima velocidad.

Parámetros recomendados según caso de uso

Generación rápida (pruebas, iteraciones)

  • Modelo: 1.3B
  • num_frames: 25
  • fps: 16
  • steps: 20
  • cfg_scale: 7.5

Tiempo estimado: 1-2 minutos

Calidad estándar (producción general)

  • Modelo: 14B (si tienes VRAM) o 1.3B
  • num_frames: 33
  • fps: 20
  • steps: 25
  • cfg_scale: 8.5

Tiempo estimado: 3-5 minutos

Máxima calidad (proyectos profesionales)

  • Modelo: 14B
  • num_frames: 49
  • fps: 24
  • steps: 30
  • cfg_scale: 9.0

Tiempo estimado: 8-12 minutos

Contenido vertical (TikTok/Reels)

  • Modelo: 1.3B
  • Resolución: 480×832
  • num_frames: 33
  • fps: 24
  • steps: 20

Tiempo estimado: 2-3 minutos

Tips avanzados para mejores resultados

Prompts en inglés. Aunque ComfyUI acepta otros idiomas, Wan 2.2 fue entrenado principalmente con prompts en inglés. Los resultados en inglés son consistentemente superiores en coherencia y precisión de movimiento.

Descripción de movimiento de cámara. No solo describas qué ocurre en la escena, especifica cómo se mueve la cámara. “A person dancing” es menos efectivo que “Static camera, a person dancing energetically in the center of frame, cinematic lighting”.

Ajusta cfg_scale iterativamente. Valores altos (10+) pueden causar artefactos visuales. Comienza con 8 y sube gradualmente si necesitas mayor adherencia al prompt.

⚠️ Importante: Más frames no siempre significa mejor resultado. A veces 33 frames coherentes superan a 65 frames con inconsistencias. Prueba rangos 25-49 primero antes de aumentar.

Usa seeds consistentes. Si repites un prompt, fija el seed para obtener resultados reproducibles y poder comparar cambios de parámetros de forma aislada.

Resolución y aspect ratio. Asegúrate de que las dimensiones sean divisibles por 16. Para vertical (Reels): 480×832. Para horizontal: 832×480 o superior.

Preguntas frecuentes

¿Tengo que desinstalar Wan 2.1 para instalar Wan 2.2?

No. Wan 2.1 y 2.2 son archivos distintos que coexisten en la misma carpeta. Los nodos de ComfyUI (WanVideoModelLoader, etc.) son los mismos para ambas versiones; simplemente seleccionas el archivo de modelo diferente. Puedes tener ambas versiones y comparar resultados.

¿Qué diferencia hay entre el modelo 1.3B y el 14B?

El 1.3B es más rápido (3-8 min por clip) y cabe en 12GB VRAM, pero la calidad de movimiento es inferior. El 14B produce movimiento más fluido y detallado, pero requiere 24GB sin offload o 14-16GB con sequential_cpu_offload activado (tarda 15-30 min). Para pruebas usa 1.3B; para producción, 14B si tienes la VRAM.

¿El prompt de movimiento debe ir en español o en inglés?

Inglés da resultados más consistentes. Wan 2.2 fue entrenado principalmente con texto en inglés para los prompts de movimiento. En español funciona parcialmente pero con menor precisión. Ejemplo efectivo: ‘the person walks forward slowly, camera follows from behind, cinematic motion’.

¿Puedo usar Wan 2.2 para hacer videos verticales (9:16)?

Sí. El modelo 1.3B está optimizado para 480×832 (vertical) o 832×480 (horizontal). El 14B soporta hasta 720×1280. Para el formato Reels/TikTok, usa 480×832 con el 1.3B. Asegúrate de que las dimensiones son divisibles por 16.

¿Funciona Wan 2.2 con los nodos de Wan 2.1?

Sí, completamente. Solo reemplaza los archivos .safetensors en la carpeta de modelos. No necesitas cambiar ningún nodo ni workflow.

¿Cuánto espacio necesito en disco para descargar todos los modelos?

Si descargas las cuatro variantes: aproximadamente 65-70 GB totales (dos modelos 14B de ~30 GB cada uno, más dos modelos 1.3B de ~2.7 GB cada uno).

¿Cómo mejoro la coherencia temporal en videos largos?

Aumenta el número de steps (25-30), usa prompts descriptivos con referencias de cámara, y mantén num_frames en rango 25-49. Evita cambios abruptos en el prompt de movimiento.


Conclusión

🏆 Nuestra recomendación

Si buscas rapidez y compatibilidad → Elige modelo 1.3B con GPU de 12GB. Obtendrás videos coherentes en 2-4 minutos, ideal para iteraciones rápidas y contenido social (TikTok/Reels).

Si priorizas máxima calidad y tienes hardware potente → Elige modelo 14B con GPU de 24GB o más. Invertirás 8-12 minutos pero obtendrás movimiento fluido y detallado para proyectos profesionales.

Si tienes GPU intermedia (16-20GB) → Usa modelo 14B con sequential CPU offload activado. Balancearás calidad y velocidad (8-12 minutos).


Wan 2.2 en ComfyUI ofrece una solución accesible y potente para generar videos desde imágenes o texto. Comienza descargando el modelo adecuado para tu GPU, instala el custom node WanVideo desde Manager, y experimenta con los parámetros recomendados. La mayoría de usuarios obtienen resultados profesionales en su primer intento. Si trabajas con ComfyUI regularmente, dedicar una tarde a dominar Wan 2.2 te abrirá posibilidades de generación de contenido visual que antes requerían software especializado o equipos costosos.

Sigue leyendo

Si quieres profundizar en optimización de VRAM en ComfyUI, consulta nuestra guía sobre técnicas avanzadas de memory management con offloading secuencial.

Si necesitas mejorar tus prompts de movimiento para obtener resultados cinematográficos, explora nuestro artículo sobre prompt engineering para generación de video I2V y T2V.

Si estás comparando alternativas a Wan 2.2, revisa nuestro análisis comparativo de modelos de generación de video en ComfyUI (Runway, Pika, Kling vs Wan).

Preguntas frecuentes

¿Tengo que desinstalar Wan 2.1 para instalar Wan 2.2?
No. Wan 2.1 y 2.2 son archivos distintos que coexisten en la misma carpeta. Los nodos de ComfyUI (WanVideoModelLoader, etc.) son los mismos para ambas versiones; simplemente seleccionas el archivo de modelo diferente. Puedes tener ambas versiones y comparar resultados.
¿Qué diferencia hay entre el modelo 1.3B y el 14B?
El 1.3B es más rápido (3-8 min por clip) y cabe en 12GB VRAM, pero la calidad de movimiento es inferior. El 14B produce movimiento más fluido y detallado, pero requiere 24GB sin offload o 14-16GB con sequential_cpu_offload activado (tarda 15-30 min). Para pruebas usa 1.3B; para producción, 14B si tienes la VRAM.
¿El prompt de movimiento debe ir en español o en inglés?
Inglés da resultados más consistentes. Wan 2.2 fue entrenado principalmente con texto en inglés para los prompts de movimiento. En español funciona parcialmente pero con menor precisión. Ejemplo efectivo: 'the person walks forward slowly, camera follows from behind, cinematic motion'.
¿Puedo usar Wan 2.2 para hacer videos verticales (9:16)?
Sí. El modelo 1.3B está optimizado para 480×832 (vertical) o 832×480 (horizontal). El 14B soporta hasta 720×1280. Para el formato Reels/TikTok, usa 480×832 con el 1.3B. Asegúrate de que las dimensiones son divisibles por 16.
Compartir X LinkedIn

También te puede interesar