Video Upscale en ComfyUI: Mejorar Resolución de Vídeo con IA
Cuando trabajas con modelos de generación de vídeo por IA como Wan 2.2 o HunyuanVideo, es común que el resultado inicial sea de 480p. Aunque la calidad es aceptable, muchos usuarios necesitan escalar esos vídeos a resoluciones más altas como 1080p o 4K para distribución en plataformas profesionales. ComfyUI ofrece una solución elegante y eficiente: el video upscale frame a frame, que aplica modelos de ampliación de imagen a cada fotograma del vídeo de manera automática.
A diferencia de métodos tradicionales que requieren procesamiento externo o plugins costosos, el ComfyUI upscale video workflow es directo, rápido y mantiene la consistencia visual entre fotogramas. Aquí exploraremos cómo implementar un video upscale completo, desde la carga del vídeo hasta la exportación final, incluyendo tiempos reales de procesado y estrategias de optimización para mejorar resolución video con inteligencia artificial.
Resultado del workflow: antes y después
Fotograma en baja resolución
Fotograma tras el upscale
De un vistazo
| Aspecto | Detalles |
|---|---|
| Mejor modelo para IA | 4x-UltraSharp (480p → 1080p en 1 pase) |
| Tiempo de procesado | 0.3-1 seg/frame (RTX 3080) |
| VRAM requerida | 4-6 GB mínimo |
| Mejor orden de operaciones | Upscale primero, interpolación después |
| Velocidad vs. Tradicional | 10x más rápido que Video-to-Video |
Cómo Funciona el Video Upscale en ComfyUI
El concepto de mejorar resolución video ComfyUI funciona de forma bastante directa: el sistema carga el vídeo, lo divide en fotogramas individuales, procesa cada uno con un modelo de ampliación de imagen, y luego los recombina en un vídeo nuevo de mayor resolución.
El Pipeline Básico
El flujo de trabajo típico consta de cuatro nodos principales:
- VHS_LoadVideo: Carga el archivo de vídeo y lo convierte en un batch de fotogramas
- Upscale Model Loader: Carga el modelo de ampliación seleccionado
- Image Upscale With Model: Procesa cada fotograma con el modelo
- VHS_VideoCombine: Recombina los fotogramas en un vídeo final
La ventaja de este enfoque es que VideoHelperSuite (VHS) gestiona automáticamente la batching de fotogramas. Si tu VRAM lo permite, todos los fotogramas pueden procesarse en un único batch, lo que es mucho más eficiente que procesar uno a uno.
Conversión de Fotogramas
Cuando cargas un vídeo con VHS_LoadVideo, especificas la velocidad de fotogramas (FPS) a la que deseas trabajar. Un vídeo de 3 segundos generado a 16 FPS resultará en 48 fotogramas. El upscaler procesará cada uno independientemente, manteniendo la información temporal del vídeo original.
💡 Consejo: Mantén los FPS originales del vídeo durante el upscale. Cambiar la velocidad de fotogramas es un proceso separado que funciona mejor después del escalado.
👉 Conclusión rápida: El pipeline de upscale en ComfyUI automatiza el procesamiento frame a frame, eliminando la necesidad de herramientas externas costosas. VideoHelperSuite es la clave para mantener eficiencia y consistencia.
Modelos de Upscale Recomendados para Vídeo
No todos los modelos de upscale son igual de efectivos para vídeo. Algunos están diseñados específicamente para fotogramas de contenido generado por IA, mientras que otros funcionan mejor con fotografía real o anime.
4x-UltraSharp: La Mejor Opción General
4x-UltraSharp es el modelo más recomendado para video upscale en ComfyUI cuando trabajas con contenido generado por IA. Sus características principales:
- Factor de escala: 4x (480p → 1920x1080 aproximadamente)
- Artefactos visuales: Mínimo ringing y distorsión en bordes sintéticos
- Consumo de VRAM: 4-6 GB, muy eficiente
- Velocidad: 0.3-1 segundo por fotograma según GPU
- Calidad en contenido generado: Excelente, preserva detalles sintéticos sin sobre-procesamiento
Para un vídeo de 3 segundos a 16 FPS (48 fotogramas), el tiempo total de procesado con 4x-UltraSharp oscila entre 15-50 segundos, dependiendo de tu hardware. Produce menos artefactos de ringing que ESRGAN en bordes sintéticos, lo que lo convierte en la opción preferida para contenido de IA.
⚠️ Importante: UltraSharp tiende a ser más conservador que ESRGAN. Si el resultado te parece demasiado suave, considera hacer una segunda pasada con ESRGAN o ajustar parámetros de sharpness en post-procesado.
4x-ESRGAN: Clásico y Agresivo
ESRGAN es el modelo histórico de upscale, ampliamente utilizado en la comunidad. Ofrece resultados más “agresivos” que UltraSharp. Sus características:
- Ventajas: Muy conocido, funciona bien en fotografía real
- Desventajas: Puede introducir artefactos en contenido generado, requiere más VRAM
- Mejor para: Vídeos fotográficos o contenido mixto
2x-LD-AnimeSharp y 4x-AnimeSharp: Especializado en Anime
Si tu contenido generado tiene un estilo anime o ilustración, estos modelos son la opción correcta:
- Factor de escala: 2x o 4x (menos agresivo, mejor para preservar líneas)
- Uso: Vídeos con arte generado o estilo dibujado
- Limitación: 2x requiere dos pasadas para llegar a 4x, duplicando tiempo de procesado
Ultimate SD Upscale: NO Recomendado para Vídeo
Aunque Ultimate SD Upscale es poderoso para imágenes estáticas, no es práctico para video upscale. El motivo es que procesa cada fotograma con tile overlapping, lo que multiplica el tiempo de procesado exponencialmente. Un vídeo de 48 fotogramas podría tardar horas.
👉 Conclusión rápida: 4x-UltraSharp es la opción universal para contenido de IA generado. ESRGAN funciona mejor en fotografía real, mientras que AnimeSharp es imprescindible para contenido ilustrado.
Tabla Comparativa de Modelos
| Modelo | Factor | VRAM | Velocidad/Frame | Artefactos | Mejor Para |
|---|---|---|---|---|---|
| 4x-UltraSharp | 4x | 4-6 GB | 0.3-1 seg | Muy bajo | ✅ IA generada, 480p→1080p |
| 4x-ESRGAN | 4x | 6-8 GB | 0.5-1.5 seg | Medio-Alto | ✅ Fotografía real |
| 2x-LD-AnimeSharp | 2x | 3-5 GB | 0.2-0.8 seg | Bajo | ✅ Anime/Ilustración |
| 4x-AnimeSharp | 4x | 5-7 GB | 0.4-1.2 seg | Bajo | ✅ Anime/Ilustración (1 pase) |
| Ultimate SD Upscale | Variable | 8+ GB | 5-15 seg | Muy bajo | ❌ Imágenes estáticas solo |
Workflow Paso a Paso: ComfyUI Upscale Video Workflow
Aquí está el workflow completo para un video upscale en ComfyUI:
Paso 1: Cargar el Vídeo
Añade el nodo VHS_LoadVideo y configura:
- video: Selecciona tu archivo de vídeo (MP4, WebM, etc.)
- frame_load_cap: Establece a 0 para cargar todos los fotogramas, o un número específico para testear
- fps: Define los FPS a los que trabajarás (normalmente mantén los FPS originales)
Paso 2: Cargar el Modelo de Upscale
Utiliza Upscale Model Loader y selecciona:
- upscale_model: Elige 4x-UltraSharp (debe estar en
models/upscale_models/) - Si no lo tienes, descárgalo desde Real-ESRGAN GitHub
Paso 3: Procesar Fotogramas
Conecta el nodo Image Upscale With Model:
- images: Conecta desde VHS_LoadVideo
- upscale_model: Conecta desde Upscale Model Loader
- Este nodo procesa automáticamente todos los fotogramas
Paso 4: Recombinar en Vídeo
Utiliza VHS_VideoCombine para generar el vídeo final:
- images: Conecta desde Image Upscale With Model
- frame_rate: Establece los FPS finales (normalmente igual a los originales)
- format: Selecciona MP4 o WebM
- quality: Ajusta entre 80-95 para balance calidad/tamaño
Conexión Visual del Workflow
VHS_LoadVideo → Image Upscale With Model → VHS_VideoCombine
↑
Upscale Model Loader
👉 Conclusión rápida: El workflow de 4 nodos es la configuración estándar. Mantén los FPS originales y ajusta la calidad según el tamaño final deseado.
Optimización de VRAM y Velocidad
El consumo de VRAM depende principalmente del tamaño de los fotogramas y cómo se distribuya la carga de procesamiento.
Procesamiento en Batch
VideoHelperSuite puede procesar múltiples fotogramas simultáneamente si tu VRAM lo permite:
- 8 GB de VRAM: Todos los fotogramas de un vídeo corto (3-5 segundos) pueden procesarse en un batch
- 6 GB: Divide en batches de 20-30 fotogramas
- 4 GB: Procesa 10-15 fotogramas por batch
Para vídeos largos, ComfyUI maneja automáticamente la división en batches, pero puedes controlarla manualmente dividiendo el vídeo en segmentos.
Configuración de Memoria
En comfy_settings.json, ajusta:
memory_limit: Establece a 0.8 de tu VRAM total (ej: 6.4 GB para 8 GB)max_cached_models: Reduce a 2-3 para liberar memoria
📌 A tener en cuenta: Con 4x-UltraSharp, incluso GPUs de 4 GB pueden procesar resoluciones de 1920x1080 eficientemente si configuras correctamente los batches.
Con ajustes adecuados, el consumo se optimiza considerablemente.
Escalado de Resolución Específico
Para vídeos generados a 480p con Wan 2.2 o HunyuanVideo, tienes varias opciones:
- Un pase de 4x-UltraSharp: 480p → 1920x1080 (4x)
- Dos pases de 2x-LD-AnimeSharp: 480p → 960p → 1920x1080
- Para 4K (2160p): Aplica 4x-UltraSharp a 540p de entrada, o dos pases de 4x
La mayoría de usuarios obtiene excelentes resultados con un único pase de 4x-UltraSharp. Es la opción más práctica en términos de tiempo de procesado.
Interpolación de Fotogramas + Upscale
Si tu vídeo original fue generado a 16 FPS pero necesitas 24 FPS para distribución, ComfyUI permite añadir interpolación de fotogramas después del upscale.
Implementación Correcta
Añade el nodo Frame Interpolation (RIFE o DAIN) después de Image Upscale With Model:
- frames: Conecta desde el upscaler
- multiplier: Establece a 1.5 para convertir 16 FPS → 24 FPS
- model: Usa RIFE-v4.25 para balance velocidad/calidad
Orden importante: Upscale primero, interpolación después. Al revés produces resultados inferiores porque RIFE trabaja mejor con frames más nítidos.
Esto incrementará el tiempo de procesado un 30-50% adicional, pero el resultado es mucho más fluido.
Tiempos Reales de Procesado
Basados en tests con GPU RTX 3080 y 4x-UltraSharp:
| Duración Vídeo | Fotogramas | Tiempo Total | Tiempo/Frame |
|---|---|---|---|
| 1 segundo (16 FPS) | 16 | 5-15 seg | 0.3-0.9 seg |
| 3 segundos (16 FPS) | 48 | 15-50 seg | 0.3-1 seg |
| 5 segundos (24 FPS) | 120 | 40-120 seg | 0.3-1 seg |
Con GPU más lenta (GTX 1080), multiplica por 1.5-2x. Con RTX 3090, los tiempos pueden reducirse a la mitad.
💡 Consejo práctico: Antes de procesar vídeos largos, haz una prueba con los primeros 16 fotogramas para calcular tiempos reales en tu hardware.
Solución de Problemas Comunes
Memoria Insuficiente
Si recibas error de VRAM:
- Reduce
frame_load_capa 24 fotogramas por batch - Cambia a 2x-LD-AnimeSharp (menor consumo)
- Procesa vídeos más cortos
Fotogramas Inconsistentes
Si notas cambios de color o artefactos entre fotogramas:
- Verifica que VHS_LoadVideo mantiene los FPS correctos
- Asegúrate de usar el mismo modelo para todos los fotogramas (no cambies durante el procesado)
- Considera pre-procesar el vídeo original con filtros de color
Vídeo de Salida Corrupto
Si el archivo MP4 no se reproduce:
- Cambia el formato a WebM en VHS_VideoCombine
- Reduce la calidad a 85
- Verifica que el codec H.264 está disponible en tu sistema
Preguntas Frecuentes
P: ¿Cuánto tiempo tarda hacer upscale de un video de 5 segundos a 24fps?
R: A 24fps son 120 frames. Con 4x-UltraSharp en RTX 3060, cada frame tarda 0.5-1 segundo: total 60-120 segundos. Con RTX 3090 puede bajar a 30-60 segundos. Es significativamente más rápido que video-to-video porque no hay proceso de difusión.
P: ¿El upscale de video añade detalles o solo amplía?
R: 4x-UltraSharp interpola inteligentemente pero no ‘inventa’ contenido nuevo — solo mejora la resolución existente. Para añadir detalle real necesitarías video-to-video con denoise bajo. Para la mayoría de videos generados con Wan o Hunyuan, 4x-UltraSharp es suficiente: el resultado a 1080p se ve mucho más nítido que el original a 480p.
P: ¿Puedo combinar video upscale con frame interpolation?
R: Sí y es una combinación muy recomendada: primero upscale (480p→1080p con 4x-UltraSharp), luego interpolación de frames (16fps→24fps con RIFE). El orden importa: upscale primero, interpolación después. Al revés produce resultados inferiores porque RIFE trabaja mejor con frames más nítidos.
P: ¿Qué modelo de upscale funciona mejor para contenido de video generado con IA?
R: 4x-UltraSharp es la mejor opción para contenido de IA: produce menos artefactos de ringing que ESRGAN en bordes sintéticos. Para contenido animado usa 2x-LD-AnimeSharp o 4x-AnimeSharp. Para footage real (no generado con IA) ESRGAN puede dar más detalle percibido.
P: ¿Necesito descargar modelos especiales o vienen con ComfyUI?
R: Los modelos de upscale no vienen por defecto. Debes descargar 4x-UltraSharp desde los repositorios de Real-ESRGAN y colocarlo en models/upscale_models/. VideoHelperSuite también requiere instalación si no lo tienes.
P: ¿Funciona el upscale con vídeos de otros generadores como Runway o Pika?
R: Sí, completamente. VHS_LoadVideo acepta cualquier archivo MP4 o WebM, independientemente de su origen. El upscale funciona igual de bien con vídeos de cualquier fuente.
P: ¿Puedo usar upscale para mejorar vídeos antiguos o de baja calidad?
R: Sí, aunque con limitaciones. 4x-UltraSharp está optimizado para contenido generado por IA, no para vídeo degradado. Para vídeo fotográfico antiguo, 4x-ESRGAN puede ser mejor, aunque los resultados serán más variables.
Sigue leyendo
Si quieres profundizar en cómo optimizar tus generaciones de vídeo, consulta nuestra guía sobre frame interpolation en ComfyUI para mejorar fluidez. Si buscas combinar upscale con otros procesos de post-producción, explora nuestro artículo sobre color grading y ajustes de video en ComfyUI. Para entender mejor los modelos de IA disponibles, descubre las diferencias entre Wan 2.2 y HunyuanVideo y cuál elegir según tus necesidades.
Conclusión
🏆 Nuestra recomendación
El video upscale en ComfyUI es una herramienta práctica y eficiente para llevar tus generaciones de vídeo a resoluciones profesionales sin sacrificar velocidad ni calidad.
Si buscas escalar contenido de IA generado → elige 4x-UltraSharp: es la mejor opción universal, rápida y con mínimos artefactos. Si trabajas con fotografía real → ESRGAN puede ofrecer más detalle percibido. Si tu contenido es animado o ilustrado → 4x-AnimeSharp es imprescindible para preservar líneas y detalles artísticos.
Con 4x-UltraSharp, un vídeo de 480p puede llegar a 1080p en cuestión de minutos, manteniendo consistencia frame a frame. El workflow es accesible incluso para usuarios con GPU de gama media (6-8 GB de VRAM), y la curva de aprendizaje es suave si sigues los pasos descritos.
Si trabajas regularmente con Wan 2.2, HunyuanVideo u otros generadores de vídeo IA, implementar este proceso en tu pipeline de producción mejorará significativamente la calidad final de tus proyectos. Prueba el workflow con un vídeo de prueba corto, ajusta los parámetros según tu hardware, y verás cómo tus generaciones ganan nueva vida en alta resolución.
Siguientes pasos en ComfyUI
Primeros pasos
Preguntas frecuentes
- ¿Cuánto tiempo tarda hacer upscale de un video de 5 segundos a 24fps?
- A 24fps son 120 frames. Con 4x-UltraSharp en RTX 3060, cada frame tarda 0.5-1 segundo: total 60-120 segundos. Con RTX 3090 puede bajar a 30-60 segundos. Es significativamente más rápido que video-to-video porque no hay proceso de difusión.
- ¿El upscale de video añade detalles o solo amplía?
- 4x-UltraSharp interpola inteligentemente pero no 'inventa' contenido nuevo — solo mejora la resolución existente. Para añadir detalle real necesitarías video-to-video con denoise bajo. Para la mayoría de videos generados con Wan o Hunyuan, 4x-UltraSharp es suficiente: el resultado a 1080p se ve mucho más nítido que el original a 480p.
- ¿Puedo combinar video upscale con frame interpolation?
- Sí y es una combinación muy recomendada: primero upscale (480p→1080p con 4x-UltraSharp), luego interpolación de frames (16fps→24fps con RIFE). El orden importa: upscale primero, interpolación después. Al revés produce resultados inferiores porque RIFE trabaja mejor con frames más nítidos.
- ¿Qué modelo de upscale funciona mejor para contenido de video generado con IA?
- 4x-UltraSharp es la mejor opción para contenido de IA: produce menos artefactos de ringing que ESRGAN en bordes sintéticos. Para contenido animado usa 2x-LD-AnimeSharp o 4x-AnimeSharp. Para footage real (no generado con IA) ESRGAN puede dar más detalle percibido.