TL;DR — RESUMEN RÁPIDO

Reproduje de principio a fin un workflow viral de texto-a-vídeo-con-audio de LTXV-2.3 encadenado con el upscaler RTX Video Super Resolution de Nvidia, en una RTX 3090 local. Generación T2V: 463s para un clip de 10s en 1920x1024 con audio. Escalado a 4K: 176s. Los problemas reales incluyeron un paquete de custom nodes desactualizado que causaba errores de carga de subgrafos, un cargador de VAE de audio que solo escanea la carpeta checkpoints, y un desajuste de frame rate que reproduce el resultado en 4K al doble de velocidad.

Modelo: LTX-2.3 22B distilled (MXFP8) + RTX Video Super Resolution · VRAM mínima: 24GB VRAM (RTX 3090 o equivalente) · Tiempo: 9 min de lectura · Nodos: DiffusionModelLoaderKJ, DualCLIPLoaderGGUF, LTXVLatentUpsampler, RTXVideoSuperResolution, VHS_VideoCombine.

Reproduje un workflow viral de LTXV-2.3 + RTX Super Resolution en ComfyUI (con datos reales)

Read in English →

Hace poco descubrí un workflow de dos etapas que circula en YouTube: generación de vídeo con audio sincronizado mediante LTXV-2.3 en ComfyUI, seguida de escalado a 4K con el upscaler RTX de Nvidia. La promesa era atractiva. Lo que encontré fue más interesante aún: un pipeline real, reproducible, pero lleno de trampas que solo descubrirías ejecutándolo.

Descargué los JSON directamente de la descripción del vídeo, los ejecuté en una RTX 3090 24GB con ComfyUI v0.27.0, y documenté todo lo que pasó: tiempos reales, consumo de VRAM, problemas inesperados y cómo resolverlos. Esto no es un tutorial de documentación oficial. Es lo que sucedió cuando intenté replicar exactamente lo que veía en pantalla.

De un vistazo: Especificaciones del Pipeline

Aspecto	Detalles
Etapa 1: Generación de vídeo	LTXV-2.3 distilled (22B) + audio sincronizado
Etapa 2: Escalado	RTX Video Super Resolution a 4K (3840x2160)
Tiempo total	~10-11 minutos (463s + 176s)
VRAM pico	22.9GB (RTX 3090 24GB mínimo)
Salida final	1920x1024 → 3840x2160, 25fps, h264 + audio AAC
Descargas de modelos	~32GB (nuevos)
Variante de cuantización	mxfp8_block32 (Ampere-compatible)

El Pipeline Completo: Estructura de Dos Etapas

El workflow consta de dos grafos independientes que se encadenan:

Etapa 1 (LTXV-2.3 T2V): Transforma un prompt de texto + audio descriptivo en un vídeo de 1920x1024 a 25fps con pista de audio embebida.
Etapa 2 (RTX SR): Toma ese vídeo y lo escala a 3840x2160 (4K) manteniendo el frame rate.

Ambos workflows llegaron listos para ejecutar, pero la realidad de hacerlos funcionar fue bastante diferente a lo que sugería la apariencia de “solo cargar y ejecutar”.

Etapa 1: LTXV-2.3 con Audio Sincronizado

Arquitectura del Grafo

El primer workflow es una máquina compleja de 15+ nodos. La cadena principal funciona así:

DiffusionModelLoaderKJ carga el transformer distilled de 22B (cuantizado a mxfp8_block32)
DualCLIPLoaderGGUF carga Gemma-3-12B (cuantizado a IQ4_XS) como text encoder
CLIPTextEncode procesa prompts positivos y negativos
LTXVScheduler construye el cronograma de difusión (8 pasos, max_shift 2.05, base_shift 0.95)
SamplerCustomAdvanced ejecuta la generación a resolución base (768x512, 251 frames)
LTXVLatentUpsampler escala el latente x2 espacialmente
SamplerCustomAdvanced (segunda pasada) refina con solo 3 pasos sobre el latente escalado
LTXVSeparateAVLatent divide el latente conjunto vídeo+audio
VAEDecodeTiled + LTXVAudioVAEDecode decodifican vídeo y audio por separado
VHS_VideoCombine mezcla ambos en un mp4 con pista de audio embebida

🏗️ Workflow: LTXV-2.3 (1.1) T2V con audio

🧠 VRAM: 24GB 📡 MODEL: LTX-2.3 22B distilled (MXFP8 block-32)

Descarga Directa Ver en GitHub

Workflow LTXV-2.3 T2V cargado y ejecutándose en ComfyUI, grafo completo con cola de trabajos real Captura real del grafo completo (15+ nodos) corriendo en ComfyUI v0.27.0.

Descargas de Modelos Necesarios

El workflow de texto a vídeo con audio en ComfyUI requiere descargar ~32GB de archivos nuevos (además de una instalación base de ComfyUI-LTXVideo):

Modelo	Tamaño	Ubicación	Fuente
gemma-3-12b-it-IQ4_XS.gguf	6.55GB	models/text_encoders/ o models/clip/	unsloth/gemma-3-12b-it-GGUF
ltx-2.3-22b-distilled-1.1_transformer_only_mxfp8_block32.safetensors	24GB	models/diffusion_models/	Kijai/LTX2.3_comfy
ltx-2.3-spatial-upscaler-x2-1.1.safetensors	996MB	models/latent_upscale_models/	Lightricks/LTX-2.3
ltx-2.3_text_projection_bf16.safetensors	1GB	models/text_encoders/	Kijai/LTX2.3_comfy
LTX23_video_vae_bf16.safetensors	1.45GB	models/vae/	Kijai/LTX2.3_comfy
LTX23_audio_vae_bf16.safetensors	365MB	models/vae/	Kijai/LTX2.3_comfy

💡 Consejo: Planifica ancho de banda y almacenamiento antes de empezar. El transformer distilled de 22B es el componente más pesado con diferencia. Si tu conexión es lenta, inicia las descargas y déjalas correr de noche.

Por Qué mxfp8_block32 en una RTX 3090

Este detalle técnico es crítico para el workflow LTX-2.3 en Ampere. Las GPUs RTX serie 30 (Ampere) no tienen instrucciones matmul FP8 nativas. El workflow especifica mxfp8_block32 porque ejecuta el modelo de 22B sobre tensor cores BF16 estándar, con calidad casi idéntica a fp8_scaled pero sin depender de operaciones que la tarjeta no puede hacer nativamente.

Si usas la variante fp8_scaled normal en una 3090, el workflow fallará o caerá en emulación lenta. No es una opción; es la diferencia entre que funcione o que no.

Números Reales de Ejecución

La ejecución completa del workflow LTXV-2.3 en mi RTX 3090 24GB tomó 463.39 segundos (7 minutos 43 segundos).

Desglose por etapa:

Sampling a resolución base (8 pasos): ~77 segundos
- Primer paso: ~25 segundos (incluye overhead de carga del modelo)
- Pasos 2-8: ~9.7 segundos cada uno
Refinamiento con latente escalado x2 (3 pasos): ~207 segundos
- ~69 segundos por paso (mucho más pesado debido al latente escalado)
Codificación de texto CLIP/Gemma + decodificación VAE/audio: ~179 segundos

Consumo de VRAM pico: 22.914MB solo para el modelo LTXAV. Esto deja apenas 1GB de margen en una tarjeta de 24GB. No es cómodo. No es seguro. Es exactamente lo que cabe.

Resultado final: 1920x1024, 25fps, 251 frames (~10 segundos), h264 + audio AAC sincronizado. El audio ambiental (descripto en el prompt como gimnasio de boxeo) era genuinamente coherente, no solo ruido decorativo.

Vídeo real generado con este workflow exacto (prompt de gimnasio de boxeo incluido en el JSON original), sin editar.

⚠️ Importante: La generación LTXV-2.3 toma ~7.7 minutos en RTX 3090 con un pico de 22.9GB de VRAM. No hay margen de error: necesitas exactamente 24GB, no menos. Si tienes una 3080 Ti de 12GB o una 4070 Ti, este workflow no funcionará sin redimensionar significativamente la salida.

Problemas Reales Encontrados

Problema 1: El LTXVAudioVAELoader Busca en la Carpeta Equivocada

El nodo LTXVAudioVAELoader tiene hardcodeado folder_paths.get_filename_list('checkpoints'), lo que significa que solo escanea models/checkpoints/, no models/vae/ donde viven los VAE de audio.

Síntoma: El desplegable muestra “Value not in list” y la cola falla.

Solución: Copia o crea un symlink de LTX23_audio_vae_bf16.safetensors en models/checkpoints/. Es un hack, pero funciona inmediatamente.

Problema 2: Custom Nodes Desactualizados

Cargué el workflow y el frontend mostró “No se pudieron cargar los subgrafos” x5. Varios nodos marcados [BETA] mostraban opciones de desplegable incorrectas o genéricas.

Causa raíz: El paquete comfyui-kjnodes que tenía instalado llevaba ~4 meses desactualizado. El soporte para LTXV-2.3 llegó mucho después de su último commit.

Solución:

cd custom_nodes/comfyui-kjnodes
git pull
pip install -r requirements.txt
# Reinicia ComfyUI

Después de la actualización (240 commits de retraso), el workflow cargó limpio. La lección aquí es obvia: para modelos virales nuevos, siempre comprueba que tus custom nodes estén al día antes de asumir que el JSON está roto.

Problema 3: Git Bloqueado por Permisos de Archivo

El git pull falló inicialmente con “confirma tus cambios o guárdalos antes de fusionar”, pero git diff mostró solo cambios de permisos (100644 → 100755) sin ediciones reales.

Solución:

git config core.fileMode false
git pull

Esto limpió el falso positivo sin riesgo.

📌 A tener en cuenta: Los problemas más comunes son custom nodes desactualizados y rutas de carpeta incorrectas. Antes de ejecutar el workflow LTXV-2.3, actualiza comfyui-kjnodes y copia el audio VAE a checkpoints/. Te ahorrarás una hora de debugging.

Etapa 2: RTX Video Super Resolution a 4K

Arquitectura Simple

El segundo workflow es mucho más directo:

VHS_LoadVideo carga el mp4 del workflow 1
RTXVideoSuperResolution escala a 3840x2160 (modo ULTRA)
VHS_VideoCombine mezcla el resultado en mp4

El nodo viene de Nvidia_RTX_Nodes_ComfyUI (instalable vía ComfyUI-Manager buscando “RTX”) y depende del paquete pip nvidia-vfx.

🏗️ Workflow: RTX Video Super Resolution (4K)

🧠 VRAM: Cualquier RTX (nodo ligero) 📡 MODEL: RTX Video Super Resolution

Descarga Directa Ver en GitHub

Workflow RTX Super Resolution cargado y ejecutándose en ComfyUI Captura real del grafo de 3 nodos (VHS_LoadVideo → RTXVideoSuperResolution → VHS_VideoCombine).

Números de Ejecución

Tiempo total: 175.88 segundos (2 minutos 56 segundos).

Resultado: Un mp4 genuinamente 3840x2160 con bordes visiblemente más nítidos, gradientes de iluminación más limpios, sin artefactos de escalado ni ghosting en la figura en movimiento.

Salida real en 4K (nota: se reproduce a doble velocidad por el bug de frame_rate explicado abajo — dura ~5s en vez de ~10s).

La Trampa del Frame Rate

Aquí está el problema que casi todos los usuarios pisarán: el JSON descargado tiene frame_rate fijado en 50 en el nodo VHS_VideoCombine, pero el vídeo fuente (del workflow 1) está a 25fps.

RTXVideoSuperResolution solo escala espacialmente, no interpola frames. Así que el vídeo de salida tiene el mismo número de frames pero se reproduce a 50fps en vez de 25fps. El vídeo 4K final se reproduce al doble de velocidad y dura la mitad (4.98 segundos en vez de ~10 segundos).

Solución: Antes de encolar, reajusta manualmente el widget frame_rate de VHS_VideoCombine para que coincida con el fps real de tu vídeo fuente.

Requisitos de Hardware y Viabilidad

Este pipeline no es escalable hacia abajo:

Componente	Requisito Mínimo
VRAM	24GB (no 20GB, no 16GB)
Espacio en disco	~50GB (modelos + vídeos intermedios)
Tiempo total	~10-11 minutos (LTXV + SR)
Ancho de banda de descarga	32GB+ de modelos nuevos

Una RTX 3090 24GB es el mínimo viable. Una 4090 o tarjeta profesional (L40S, H100) daría más margen y potencialmente pasos más rápidos, pero no cambiaría el orden de magnitud.

Preguntas Frecuentes

¿Se puede correr el modelo distilled de LTXV-2.3 en una RTX 3090?

Sí, pero solo con la variante del transformer mxfp8_block32, no fp8_scaled. Las GPU serie 30 de Nvidia no tienen soporte nativo de matmul FP8, y mxfp8_block32 corre el mismo modelo distilled de 22B sobre tensor cores BF16 estándar. El pico de VRAM reservada fue de 22.9GB, así que hace falta una tarjeta de 24GB completa.

¿Por qué mi workflow de LTXV-2.3 descargado muestra un error ‘no se pudieron cargar los subgrafos’ en ComfyUI?

Normalmente significa que el paquete de custom nodes comfyui-kjnodes está desactualizado y le faltan las clases de nodo que referencia el workflow (el soporte de LTX-2.3 es muy reciente). Actualízalo con git pull en custom_nodes/comfyui-kjnodes, reinstala su requirements.txt, y reinicia ComfyUI.

¿Por qué mi vídeo en 4K de RTX Video Super Resolution se reproduce al doble de velocidad?

RTXVideoSuperResolution solo hace escalado espacial (de resolución), no interpolación de frames. El resultado tiene el mismo número de frames que la entrada. Si el widget frame_rate del nodo VHS_VideoCombine no coincide con el fps real de tu vídeo fuente, el resultado se reproduce demasiado rápido. Reajústalo antes de encolar.

¿Dónde busca ComfyUI el fichero del LTXVAudioVAELoader?

A diferencia de la mayoría de cargadores de VAE, este nodo nativo de ComfyUI escanea específicamente la carpeta models/checkpoints/, no models/vae/. Si tu fichero de VAE de audio vive en vae/, crea un symlink o cópialo a checkpoints/ o el desplegable del nodo mostrará ‘Value not in list’.

¿Puedo saltarme la etapa de refinamiento (3 pasos) para acelerar?

Técnicamente sí, pero el resultado será notablemente más suave y menos detallado. Los 3 pasos de refinamiento sobre el latente escalado x2 son lo que convierte la salida de 768x512 en algo visualmente sólido a 1920x1024. No recomendado.

¿El escalado RTX SR funciona con GPUs AMD?

No. El nodo RTXVideoSuperResolution es específico de Nvidia y depende de nvidia-vfx. AMD no tiene un equivalente nativo en ComfyUI.

Sigue leyendo

Si los formatos de cuantización como mxfp8_block32 y GGUF no te resultan familiares, nuestra guía de GGUF en ComfyUI explica qué hacen realmente a la calidad del modelo y a la VRAM. Para comparar LTXV-2.3 con otro modelo local de generación de vídeo, consulta nuestra guía completa de Wan 2.2. Y si quieres profundizar en el escalado de vídeo más allá de RTX SR, tenemos una guía de video upscale en ComfyUI.

Conclusión

🏆 Nuestra recomendación

Ambos workflows funcionan exactamente como se anuncia en una RTX 3090 de 24GB. LTXV-2.3 distilled produce vídeo con audio genuinamente bueno en menos de 8 minutos. El escalado RTX SR es rápido y limpio a 4K real.

Si tienes una RTX 3090 24GB y estás dispuesto a depurar problemas de custom nodes, este pipeline es viable y produce resultados reales de calidad profesional. Si trabajas con tarjetas más pequeñas (3080 Ti, 4070 Ti) o prefieres una experiencia sin configuración, ahorra tiempo y espera a que Nvidia o Lightricks lancen versiones optimizadas.

Si decides intentarlo, descarga los JSON de la descripción del vídeo original, verifica que tu comfyui-kjnodes esté actualizado, copia el audio VAE a models/checkpoints/, y reajusta el frame rate antes de encolar. Documentar lo que encuentres en el camino será valioso para quienes vengan después.

Siguientes pasos en ComfyUI

Primeros pasos

Resolver problemas

Preguntas frecuentes

¿Se puede correr el modelo distilled de LTXV-2.3 en una RTX 3090?: Sí, pero solo con la variante del transformer mxfp8_block32, no fp8_scaled -- las GPU serie 30 de Nvidia no tienen soporte nativo de matmul FP8, y mxfp8_block32 corre el mismo modelo distilled de 22B sobre tensor cores BF16 estándar. El pico de VRAM reservada fue de 22.9GB, así que hace falta una tarjeta de 24GB completa.
¿Por qué mi workflow de LTXV-2.3 descargado muestra un error 'no se pudieron cargar los subgrafos' en ComfyUI?: Normalmente significa que el paquete de custom nodes comfyui-kjnodes está desactualizado y le faltan las clases de nodo que referencia el workflow (el soporte de LTX-2.3 es muy reciente). Actualízalo con git pull en custom_nodes/comfyui-kjnodes, reinstala su requirements.txt, y reinicia ComfyUI.
¿Por qué mi vídeo en 4K de RTX Video Super Resolution se reproduce al doble de velocidad?: RTXVideoSuperResolution solo hace escalado espacial (de resolución), no interpolación de frames -- el resultado tiene el mismo número de frames que la entrada. Si el widget frame_rate del nodo VHS_VideoCombine no coincide con el fps real de tu vídeo fuente, el resultado se reproduce demasiado rápido. Reajústalo antes de encolar.
¿Dónde busca ComfyUI el fichero del LTXVAudioVAELoader?: A diferencia de la mayoría de cargadores de VAE, este nodo nativo de ComfyUI escanea específicamente la carpeta models/checkpoints/, no models/vae/. Si tu fichero de VAE de audio vive en vae/, crea un symlink o cópialo a checkpoints/ o el desplegable del nodo mostrará 'Value not in list'.

Reproduje un workflow viral de LTXV-2.3 + RTX Super Resolution en ComfyUI (con datos reales)

Reproduje un workflow viral de LTXV-2.3 + RTX Super Resolution en ComfyUI (con datos reales)

De un vistazo: Especificaciones del Pipeline

El Pipeline Completo: Estructura de Dos Etapas

Etapa 1: LTXV-2.3 con Audio Sincronizado

Arquitectura del Grafo

🏗️ Workflow: LTXV-2.3 (1.1) T2V con audio

Descargas de Modelos Necesarios

Por Qué mxfp8_block32 en una RTX 3090

Números Reales de Ejecución

Problemas Reales Encontrados

Problema 1: El LTXVAudioVAELoader Busca en la Carpeta Equivocada

Problema 2: Custom Nodes Desactualizados

Problema 3: Git Bloqueado por Permisos de Archivo

Etapa 2: RTX Video Super Resolution a 4K

Arquitectura Simple

🏗️ Workflow: RTX Video Super Resolution (4K)

Números de Ejecución

La Trampa del Frame Rate

Requisitos de Hardware y Viabilidad

Preguntas Frecuentes

¿Se puede correr el modelo distilled de LTXV-2.3 en una RTX 3090?

¿Por qué mi workflow de LTXV-2.3 descargado muestra un error ‘no se pudieron cargar los subgrafos’ en ComfyUI?

¿Por qué mi vídeo en 4K de RTX Video Super Resolution se reproduce al doble de velocidad?

¿Dónde busca ComfyUI el fichero del LTXVAudioVAELoader?

¿Puedo saltarme la etapa de refinamiento (3 pasos) para acelerar?

¿El escalado RTX SR funciona con GPUs AMD?

Sigue leyendo

Conclusión

Siguientes pasos en ComfyUI

Primeros pasos

Resolver problemas

Preguntas frecuentes

También te puede interesar

LTX Director en ComfyUI: Probé el Nuevo Nodo de Timeline y Encontré 2 Bugs Reales

Intenté Exprimir una RTX 3090 con el Modelo Dev Completo de LTX-2.3 — Reventó 4 Veces Seguidas

5 Pruebas de Vídeo IA Local en una RTX 3090: Qué Funcionó Realmente en 2026