5 Pruebas de Vídeo IA Local en una RTX 3090: Qué Funcionó Realmente en 2026
Hice exactamente lo que nadie muestra: cargar cinco modelos distintos de mejor IA de vídeo local 2026 en el mismo hardware, ejecutar workflows reales, y documentar dónde fallan, cuánto tiempo tardan y qué calidad producen. La mayoría de comparativas se basan en fichas técnicas y demos de YouTube. Esta no. En una única sesión extendida, probé LTXV-2.3 (distilled y dev), SCAIL-2, Wan 2.1 I2V y Wan 2.2 I2V en una RTX 3090 de 24GB con ComfyUI v0.27.0, ejecutando cada modelo en la misma máquina con los mismos recursos limitados. Los resultados son más matizados (y más útiles) que cualquier comparativa modelos de vídeo ComfyUI genérica.
Este artículo es el resultado de esas pruebas reales: datos de consumo de VRAM, tiempos de ejecución, tasas de éxito/fallo y recomendaciones específicas por tarea. Si ejecutas IA de vídeo local RTX 3090, encontrarás respuestas concretas aquí.
De un vistazo: resumen de las cinco pruebas
| Modelo | Tarea | Tiempo | VRAM pico | Custom nodes | Resultado |
|---|---|---|---|---|---|
| LTXV-2.3 distilled | Texto → vídeo + audio | 463.39s | 22.9GB | 3 paquetes | ✅ Éxito (1/1) |
| LTXV-2.3 dev | Texto → vídeo + audio | — | ~17-20GB | 3 paquetes | ❌ Fallo (0/4) |
| SCAIL-2 | Reemplazo de personaje | 571.09s | 15.9GB | 0 (nativo) | ✅ Éxito (1/1) |
| Wan 2.1 I2V | Imagen → vídeo | 1.210s | ~20.1GB | 2 paquetes | ✅ Éxito (1/1) |
| Wan 2.2 I2V | Imagen → vídeo | 1.083s | ~16GB (dinámico) | 2 paquetes | ✅ Éxito (1/1) |
Nota importante: no hay un ganador universal. Cada herramienta resuelve un problema distinto. LTXV genera vídeo desde cero. SCAIL-2 reemplaza personas. Wan anima imágenes. Declarar que uno es “mejor” sería como afirmar que un martillo es mejor que un destornillador.
Configuración de prueba: por qué el hardware importa
Todas las pruebas corrieron en:
- GPU: NVIDIA RTX 3090 (24GB VRAM)
- RAM del sistema: 32GB DDR4
- ComfyUI: v0.27.0
- Almacenamiento: SSD NVMe
Este hardware es accesible para usuarios serios de generación local de IA, pero no es una máquina de laboratorio. Los límites de memoria son reales y reproducibles. Cuando algo falla en este entorno, es porque realmente agota recursos o existe un problema de compatibilidad específico, no porque el hardware sea insuficiente en teoría.
LTXV-2.3 distilled: texto a vídeo probado y rápido
LTXV-2.3 distilled fue la primera prueba y también la más limpia. Cargó sin problemas, ejecutó un workflow de texto a vídeo (incluyendo generación de audio sincronizado), y produjo una salida funcional en 463.39 segundos (aproximadamente 7 minutos y 43 segundos). El pico de VRAM fue de 22.914MB (22.9GB), dejando apenas ~1GB de margen en una tarjeta de 24GB.
La versión distilled está optimizada específicamente para inferencia local. Es más pequeña que la variante completa, lo que explica en parte la velocidad. La calidad de salida fue coherente y utilizable para proyectos reales. Para benchmark generación de vídeo ComfyUI, LTXV-2.3 distilled establece un punto de referencia sólido: un clip de ~10 segundos desde un prompt de texto en menos de 8 minutos en hardware de consumidor.
⚠️ Importante: Espera problemas de compatibilidad con templates recién publicados. En este caso, el LTXVAudioVAELoader tenía un bug de escaneo de carpeta, y el paquete de custom nodes estaba desactualizado.
Por qué LTXV-2.3 dev falló (y qué significa)
La variante dev del mismo modelo, cargada vía UnetLoaderGGUF, falló cuatro veces seguidas en el punto exacto: durante la carga del VAE de vídeo, el sistema se quedó sin RAM del sistema (no VRAM de GPU). Los logs del kernel confirmaron el error de out-of-memory, no un error de CUDA. Esto fue reproducible al 100%.
Aquí es donde la historia se vuelve interesante: mi hipótesis inicial fue que la ruta de carga GGUF en ComfyUI era inherentemente inestable. Pero luego ejecuté Wan 2.1 I2V y Wan 2.2 I2V, ambos también cargados vía UnetLoaderGGUF, y ambos se completaron sin problemas. Tres corridas exitosas a través de GGUF superan ahora a los cuatro fallos. Esto significa que el problema no es la ruta de carga GGUF en general, sino algo específico del pipeline del modelo dev de LTXV-2.3: probablemente el muestreo en dos etapas con escalado espacial del latente entre etapas, o alguna interacción específica de ese workflow con el cargador GGUF.
👉 Conclusión rápida: LTXV-2.3 distilled funciona perfectamente y es más rápido. Evita la variante dev vía GGUF en máquinas de 24GB VRAM / 32GB RAM del sistema hasta que se identifique la causa subyacente.
SCAIL-2: reemplazo de personaje sin custom nodes
SCAIL-2 es una herramienta especializada para reemplazar a una persona en un vídeo existente. La prueba utilizó la salida de LTXV-2.3 distilled como vídeo conductor y sustituyó la persona por un personaje de referencia generado recientemente.
Ejecutó en 571.09 segundos (9 minutos y 31 segundos) con un pico de VRAM de 15.881MB (15.9GB). Lo más notable: SCAIL-2 no requiere ningún custom node. Se ejecuta completamente con los nodos nativos de ComfyUI (UNETLoader, CheckpointLoaderSimple, etc.). Esto lo hace significativamente más accesible que las otras herramientas, especialmente para usuarios que evitan instalar extensiones adicionales.
La salida fue funcional en el primer intento. No hubo errores de carga de subgrafo (ese aviso cosmético que aparece en ComfyUI y que casi nunca significa un fallo real). En el contexto de LTXV vs Wan vs SCAIL-2, SCAIL-2 ocupa un nicho único: es la única herramienta de transformación de personaje en esta prueba, y la única que no requiere dependencias externas.
💡 Consejo: Si buscas reemplazar a una persona en vídeo sin complicaciones de instalación, SCAIL-2 es tu opción. No necesitas tocar la terminal para instalar custom nodes.
👉 Conclusión rápida: SCAIL-2 es la opción más accesible para reemplazo de personaje y no necesita instalar nada extra en ComfyUI.
Wan 2.1 I2V vs Wan 2.2 I2V: la diferencia que importa
Ambas versiones de Wan I2V animan una imagen fija en una secuencia de vídeo. La prueba fue idéntica en ambos casos: tomar el primer frame exacto de la salida de LTXV-2.3 distilled y animarlo.
| Aspecto | Wan 2.1 I2V | Wan 2.2 I2V |
|---|---|---|
| Tiempo de ejecución | 1.210s | 1.083s |
| VRAM modelo | 13.704MB | 9.337MB por modelo (carga dinámica, uno a la vez) |
| VRAM encoder | 6.419MB | 6.419MB (mismo text encoder umt5_xxl) |
| Calidad visual | ✅ Suave | ✅ Nítida |
| Detalles preservados | ❌ Pérdida de definición | ✅ Definición clara |
| Arquitectura | Single model | MoE dual (HighNoise + LowNoise) |
La arquitectura MoE de doble modelo de Wan 2.2 produjo mejores resultados visuales y fue más rápida, a pesar de cargar dos modelos. No se puede afirmar con los datos de esta prueba que la arquitectura en sí sea la causa — la cuantización distinta usada en cada prueba (Q4_K_M en Wan 2.2, Q6_K en Wan 2.1) es una variable que no se aisló.
Ambas versiones cargaron vía UnetLoaderGGUF sin problemas, acumulando tres corridas exitosas a través de esa ruta de carga. Para usuarios que priorizan animación de imagen, Wan 2.2 I2V es la opción probada en esta serie.
👉 Conclusión rápida: Wan 2.2 I2V superó a su predecesor en velocidad y calidad visual en esta prueba concreta, aunque no se aisló si la arquitectura MoE en sí, la cuantización distinta, o ambas cosas explican la diferencia.
El patrón de bugs en templates recién publicados
Todos los templates oficiales “recién salidos del horno” de esta serie tenían al menos un bug real no relacionado con la calidad del modelo:
- LTXV-2.3: bug de escaneo de carpeta en LTXVAudioVAELoader, más un paquete de custom nodes desactualizado
- SCAIL-2: referencia a un nombre de fichero VAE que no coincidía con lo que realmente se descarga, más un problema de ruta de subcarpeta de LoRA
- Wan 2.1 y 2.2: sin estos problemas específicos (los workflows se ensamblaron manualmente a partir de tipos de nodo oficiales, no templates pre-construidos)
Lección importante: espera depurar el JSON del workflow para cualquier cosa publicada en las últimas semanas. No basta con descargar modelos y ejecutar. Revisa los nombres de ficheros, las rutas de subcarpetas y los paquetes de custom nodes.
📌 A tener en cuenta: Los templates oficiales recién lanzados suelen tener problemas de ruta de fichero o referencias de modelos desactualizadas. Reserva tiempo para depuración manual antes de asumir que algo está roto.
Cuantización en Ampere: la decisión recurrente que nadie menciona
La elección de cuantización fue deliberada en todos los modelos:
- LTXV-2.3: mxfp8_block32 (evitando el soporte nativo de matmul FP8 que solo llegó con Ada/Hopper/Blackwell)
- SCAIL-2: int8_convrot (usando directamente los tensor cores INT8 nativos de Ampere)
- Wan 2.1 y 2.2: K-quants GGUF (Q6_K y Q4_K_M respectivamente — elegidos sobre todo para encajar en el presupuesto de VRAM, no un formato específicamente orientado a Ampere como los otros dos)
Si ejecutas modelos de vídeo de 2026 en una RTX 3090 u otro chip Ampere, comprueba si el modelo tiene una opción de cuantización apropiada para Ampere antes de asumir que la variante por defecto funcionará bien. Esto no es un detalle técnico menor: es la diferencia entre una ejecución fluida y una que agota memoria.
Avisos cosméticos vs errores reales en ComfyUI
Los tres templates oficiales probados en esta serie (LTXV-2.3, SCAIL-2, Wan 2.2) dispararon un aviso “No se pudieron cargar los subgrafos” en el frontend de ComfyUI al menos una vez. En absolutamente todos los casos, esto no bloqueó la ejecución una vez arreglados los problemas subyacentes de modelo y nombre de fichero.
En los tres casos, este aviso nunca correlacionó con un fallo bloqueante real. Trata esto como ruido cosmético en esta versión de ComfyUI. Los problemas reales aparecen en los errores de consola y los fallos de validación, no en este aviso.
Orientación por tarea: qué elegir y por qué
Estos cinco modelos no son competidores directos. Resuelven problemas distintos:
Para generar una escena desde un prompt de texto
LTXV-2.3 distilled es la opción probada, rápida y estable. 463.39 segundos en una RTX 3090 es aceptable para generación local. Evita la variante dev vía GGUF en máquinas de este tamaño. Es la mejor opción para mejor IA de vídeo local 2026 si tu tarea es síntesis desde cero.
Para reemplazar a una persona en metraje existente
SCAIL-2 es la opción probada y además es la única de las cinco que no necesita instalar ningún custom node. 571.09 segundos es un tiempo razonable para una transformación de este tipo. Su accesibilidad la convierte en la opción más práctica para usuarios nuevos.
Para animar una imagen fija que ya te gusta
Wan 2.2 I2V produjo resultados claramente mejores que Wan 2.1 I2V en la prueba idéntica. La arquitectura MoE de doble modelo es más eficiente y produce detalles más nítidos. La causa específica (arquitectura vs diferencia de cuantización) no se aisló, pero el resultado es observable.
Preguntas frecuentes
P: ¿Qué modelo de vídeo IA local es mejor para una RTX 3090 en 2026?
R: No hay un único ganador — depende de la tarea. LTXV-2.3 distilled es la opción probada para generar vídeo desde un prompt de texto. SCAIL-2 es la opción probada para reemplazar a una persona en metraje existente, y no necesita ningún custom node. Wan 2.2 I2V es la opción probada para animar una imagen fija, superando a Wan 2.1 I2V en una prueba directa con la misma entrada.
P: ¿Cargar un modelo vía UnetLoaderGGUF de ComfyUI-GGUF es inestable?
R: No como regla general. A través de cinco pruebas en este hardware, tres corridas cargadas vía GGUF (Wan 2.1 I2V, Wan 2.2 I2V x2) se completaron con éxito sin problemas, mientras que solo el modelo dev de LTXV-2.3 falló de forma reproducible (4/4) vía el mismo tipo de cargador. El crash es más probablemente específico del pipeline concreto de dos etapas de ese modelo que de la carga GGUF en general.
P: ¿El error ‘No se pudieron cargar los subgrafos’ de ComfyUI significa que un workflow está roto?
R: No necesariamente. A través de los tres templates oficiales probados en esta serie (LTXV-2.3, SCAIL-2, Wan 2.2), este aviso apareció siempre, pero nunca correlacionó realmente con un fallo bloqueante real una vez arreglados los problemas subyacentes de modelo/nombre de fichero. Tratarlo como cosmético en esta versión de ComfyUI y buscar en los errores de consola los problemas reales.
P: ¿Necesito instalar custom nodes para cualquiera de estos?
R: No para SCAIL-2, que funciona completamente con nodos nativos. LTXV-2.3, Wan 2.1 y Wan 2.2 requieren 2-3 paquetes de custom nodes, pero estos son estándar y bien mantenidos.
P: ¿Funcionará esto en una RTX 2080 o similar?
R: Posiblemente, pero con limitaciones. Los picos de VRAM más altos de esta serie rondan los 22.9GB (LTXV-2.3 distilled), fuera del alcance de una 2080 de 8-11GB. El consumo de RAM del sistema es además donde LTXV-2.3 dev se atascó. Máquinas con menos de 32GB de RAM del sistema corren más riesgo con modelos complejos.
Sigue leyendo
Cada prueba de esta comparativa tiene su propio artículo dedicado con todos los detalles, capturas reales y workflows descargables: LTXV-2.3 + RTX Super Resolution, investigación del OOM en el modelo dev de LTXV-2.3, reemplazo de personaje con SCAIL-2, Wan 2.1 I2V, y Wan 2.2 I2V. Si la cuantización GGUF no te resulta familiar, nuestra guía de GGUF en ComfyUI explica los trade-offs.
🏆 Nuestra recomendación
Si buscas generar vídeo desde un prompt de texto → elige LTXV-2.3 distilled. Es rápido, estable y funciona en hardware de consumidor sin sorpresas.
Si necesitas reemplazar a una persona en un vídeo existente → elige SCAIL-2. Es la única opción especializada aquí, no requiere custom nodes, y el tiempo de ejecución es razonable.
Si quieres animar una imagen fija que ya tienes → elige Wan 2.2 I2V. Supera a su predecesor en velocidad y calidad visual, y la arquitectura MoE es más eficiente.
Estos datos provienen de ejecuciones reales en hardware real con recursos limitados. Los tiempos, el consumo de memoria y la estabilidad variarán con tu configuración exacta, pero estos patrones son un punto de partida sólido basado en máquinas reales, no en optimismo teórico.
Siguientes pasos en ComfyUI
Primeros pasos
Preguntas frecuentes
- ¿Qué modelo de vídeo IA local es mejor para una RTX 3090 en 2026?
- No hay un único ganador -- depende de la tarea. LTXV-2.3 distilled es la opción probada para generar vídeo desde un prompt de texto. SCAIL-2 es la opción probada para reemplazar a una persona en metraje existente, y no necesita ningún custom node. Wan 2.2 I2V es la opción probada para animar una imagen fija, superando a Wan 2.1 I2V en una prueba directa con la misma entrada.
- ¿Cargar un modelo vía UnetLoaderGGUF de ComfyUI-GGUF es inestable?
- No como regla general. A través de cinco pruebas en este hardware, tres corridas cargadas vía GGUF (Wan 2.1 I2V, Wan 2.2 I2V x2) se completaron con éxito sin problemas, mientras que solo el modelo dev de LTXV-2.3 falló de forma reproducible (4/4) vía el mismo tipo de cargador. El crash es más probablemente específico del pipeline concreto de dos etapas de ese modelo que de la carga GGUF en general.
- ¿El error 'No se pudieron cargar los subgrafos' de ComfyUI significa que un workflow está roto?
- No necesariamente. A través de cinco templates de workflow distintos probados en esta serie, este aviso apareció en la mayoría, pero nunca correlacionó realmente con un fallo bloqueante real una vez arreglados los problemas subyacentes de modelo/nombre de fichero. Tratarlo como cosmético en esta versión de ComfyUI y buscar en los errores de consola los problemas reales.