ComfyLab
Video Upscale en ComfyUI: Mejorar Resolución de Vídeo con IA

Video Upscale en ComfyUI: Mejorar Resolución de Vídeo con IA

6GB VRAM VRAM Intermedio 12 min 4x-UltraSharp / ESRGAN
Savien

Video Upscale en ComfyUI: Mejorar Resolución de Vídeo con IA

Cuando trabajas con modelos de generación de vídeo por IA como Wan 2.2 o HunyuanVideo, es común que el resultado inicial sea de 480p. Aunque la calidad es aceptable, muchos usuarios necesitan escalar esos vídeos a resoluciones más altas como 1080p o 4K para distribución en plataformas profesionales. ComfyUI ofrece una solución elegante y eficiente: el video upscale frame a frame, que aplica modelos de ampliación de imagen a cada fotograma del vídeo de manera automática.

A diferencia de métodos tradicionales que requieren procesamiento externo o plugins costosos, el ComfyUI upscale video workflow es directo, rápido y mantiene la consistencia visual entre fotogramas. Aquí exploraremos cómo implementar un video upscale completo, desde la carga del vídeo hasta la exportación final, incluyendo tiempos reales de procesado y estrategias de optimización para mejorar resolución video con inteligencia artificial.

Resultado del workflow: antes y después

Fotograma en baja resolución Fotograma en baja resolución

Fotograma tras el upscale Fotograma tras el upscale


De un vistazo

AspectoDetalles
Mejor modelo para IA4x-UltraSharp (480p → 1080p en 1 pase)
Tiempo de procesado0.3-1 seg/frame (RTX 3080)
VRAM requerida4-6 GB mínimo
Mejor orden de operacionesUpscale primero, interpolación después
Velocidad vs. Tradicional10x más rápido que Video-to-Video

Cómo Funciona el Video Upscale en ComfyUI

El concepto de mejorar resolución video ComfyUI funciona de forma bastante directa: el sistema carga el vídeo, lo divide en fotogramas individuales, procesa cada uno con un modelo de ampliación de imagen, y luego los recombina en un vídeo nuevo de mayor resolución.

El Pipeline Básico

El flujo de trabajo típico consta de cuatro nodos principales:

  1. VHS_LoadVideo: Carga el archivo de vídeo y lo convierte en un batch de fotogramas
  2. Upscale Model Loader: Carga el modelo de ampliación seleccionado
  3. Image Upscale With Model: Procesa cada fotograma con el modelo
  4. VHS_VideoCombine: Recombina los fotogramas en un vídeo final

La ventaja de este enfoque es que VideoHelperSuite (VHS) gestiona automáticamente la batching de fotogramas. Si tu VRAM lo permite, todos los fotogramas pueden procesarse en un único batch, lo que es mucho más eficiente que procesar uno a uno.

Conversión de Fotogramas

Cuando cargas un vídeo con VHS_LoadVideo, especificas la velocidad de fotogramas (FPS) a la que deseas trabajar. Un vídeo de 3 segundos generado a 16 FPS resultará en 48 fotogramas. El upscaler procesará cada uno independientemente, manteniendo la información temporal del vídeo original.

💡 Consejo: Mantén los FPS originales del vídeo durante el upscale. Cambiar la velocidad de fotogramas es un proceso separado que funciona mejor después del escalado.

👉 Conclusión rápida: El pipeline de upscale en ComfyUI automatiza el procesamiento frame a frame, eliminando la necesidad de herramientas externas costosas. VideoHelperSuite es la clave para mantener eficiencia y consistencia.

Modelos de Upscale Recomendados para Vídeo

No todos los modelos de upscale son igual de efectivos para vídeo. Algunos están diseñados específicamente para fotogramas de contenido generado por IA, mientras que otros funcionan mejor con fotografía real o anime.

4x-UltraSharp: La Mejor Opción General

4x-UltraSharp es el modelo más recomendado para video upscale en ComfyUI cuando trabajas con contenido generado por IA. Sus características principales:

  • Factor de escala: 4x (480p → 1920x1080 aproximadamente)
  • Artefactos visuales: Mínimo ringing y distorsión en bordes sintéticos
  • Consumo de VRAM: 4-6 GB, muy eficiente
  • Velocidad: 0.3-1 segundo por fotograma según GPU
  • Calidad en contenido generado: Excelente, preserva detalles sintéticos sin sobre-procesamiento

Para un vídeo de 3 segundos a 16 FPS (48 fotogramas), el tiempo total de procesado con 4x-UltraSharp oscila entre 15-50 segundos, dependiendo de tu hardware. Produce menos artefactos de ringing que ESRGAN en bordes sintéticos, lo que lo convierte en la opción preferida para contenido de IA.

⚠️ Importante: UltraSharp tiende a ser más conservador que ESRGAN. Si el resultado te parece demasiado suave, considera hacer una segunda pasada con ESRGAN o ajustar parámetros de sharpness en post-procesado.

4x-ESRGAN: Clásico y Agresivo

ESRGAN es el modelo histórico de upscale, ampliamente utilizado en la comunidad. Ofrece resultados más “agresivos” que UltraSharp. Sus características:

  • Ventajas: Muy conocido, funciona bien en fotografía real
  • Desventajas: Puede introducir artefactos en contenido generado, requiere más VRAM
  • Mejor para: Vídeos fotográficos o contenido mixto

2x-LD-AnimeSharp y 4x-AnimeSharp: Especializado en Anime

Si tu contenido generado tiene un estilo anime o ilustración, estos modelos son la opción correcta:

  • Factor de escala: 2x o 4x (menos agresivo, mejor para preservar líneas)
  • Uso: Vídeos con arte generado o estilo dibujado
  • Limitación: 2x requiere dos pasadas para llegar a 4x, duplicando tiempo de procesado

Ultimate SD Upscale: NO Recomendado para Vídeo

Aunque Ultimate SD Upscale es poderoso para imágenes estáticas, no es práctico para video upscale. El motivo es que procesa cada fotograma con tile overlapping, lo que multiplica el tiempo de procesado exponencialmente. Un vídeo de 48 fotogramas podría tardar horas.

👉 Conclusión rápida: 4x-UltraSharp es la opción universal para contenido de IA generado. ESRGAN funciona mejor en fotografía real, mientras que AnimeSharp es imprescindible para contenido ilustrado.

Tabla Comparativa de Modelos

ModeloFactorVRAMVelocidad/FrameArtefactosMejor Para
4x-UltraSharp4x4-6 GB0.3-1 segMuy bajo✅ IA generada, 480p→1080p
4x-ESRGAN4x6-8 GB0.5-1.5 segMedio-Alto✅ Fotografía real
2x-LD-AnimeSharp2x3-5 GB0.2-0.8 segBajo✅ Anime/Ilustración
4x-AnimeSharp4x5-7 GB0.4-1.2 segBajo✅ Anime/Ilustración (1 pase)
Ultimate SD UpscaleVariable8+ GB5-15 segMuy bajo❌ Imágenes estáticas solo

Workflow Paso a Paso: ComfyUI Upscale Video Workflow

Aquí está el workflow completo para un video upscale en ComfyUI:

Paso 1: Cargar el Vídeo

Añade el nodo VHS_LoadVideo y configura:

  • video: Selecciona tu archivo de vídeo (MP4, WebM, etc.)
  • frame_load_cap: Establece a 0 para cargar todos los fotogramas, o un número específico para testear
  • fps: Define los FPS a los que trabajarás (normalmente mantén los FPS originales)

Paso 2: Cargar el Modelo de Upscale

Utiliza Upscale Model Loader y selecciona:

  • upscale_model: Elige 4x-UltraSharp (debe estar en models/upscale_models/)
  • Si no lo tienes, descárgalo desde Real-ESRGAN GitHub

Paso 3: Procesar Fotogramas

Conecta el nodo Image Upscale With Model:

  • images: Conecta desde VHS_LoadVideo
  • upscale_model: Conecta desde Upscale Model Loader
  • Este nodo procesa automáticamente todos los fotogramas

Paso 4: Recombinar en Vídeo

Utiliza VHS_VideoCombine para generar el vídeo final:

  • images: Conecta desde Image Upscale With Model
  • frame_rate: Establece los FPS finales (normalmente igual a los originales)
  • format: Selecciona MP4 o WebM
  • quality: Ajusta entre 80-95 para balance calidad/tamaño

Conexión Visual del Workflow

VHS_LoadVideo → Image Upscale With Model → VHS_VideoCombine

        Upscale Model Loader

👉 Conclusión rápida: El workflow de 4 nodos es la configuración estándar. Mantén los FPS originales y ajusta la calidad según el tamaño final deseado.

Optimización de VRAM y Velocidad

El consumo de VRAM depende principalmente del tamaño de los fotogramas y cómo se distribuya la carga de procesamiento.

Procesamiento en Batch

VideoHelperSuite puede procesar múltiples fotogramas simultáneamente si tu VRAM lo permite:

  • 8 GB de VRAM: Todos los fotogramas de un vídeo corto (3-5 segundos) pueden procesarse en un batch
  • 6 GB: Divide en batches de 20-30 fotogramas
  • 4 GB: Procesa 10-15 fotogramas por batch

Para vídeos largos, ComfyUI maneja automáticamente la división en batches, pero puedes controlarla manualmente dividiendo el vídeo en segmentos.

Configuración de Memoria

En comfy_settings.json, ajusta:

  • memory_limit: Establece a 0.8 de tu VRAM total (ej: 6.4 GB para 8 GB)
  • max_cached_models: Reduce a 2-3 para liberar memoria

📌 A tener en cuenta: Con 4x-UltraSharp, incluso GPUs de 4 GB pueden procesar resoluciones de 1920x1080 eficientemente si configuras correctamente los batches.

Con ajustes adecuados, el consumo se optimiza considerablemente.

Escalado de Resolución Específico

Para vídeos generados a 480p con Wan 2.2 o HunyuanVideo, tienes varias opciones:

  • Un pase de 4x-UltraSharp: 480p → 1920x1080 (4x)
  • Dos pases de 2x-LD-AnimeSharp: 480p → 960p → 1920x1080
  • Para 4K (2160p): Aplica 4x-UltraSharp a 540p de entrada, o dos pases de 4x

La mayoría de usuarios obtiene excelentes resultados con un único pase de 4x-UltraSharp. Es la opción más práctica en términos de tiempo de procesado.

Interpolación de Fotogramas + Upscale

Si tu vídeo original fue generado a 16 FPS pero necesitas 24 FPS para distribución, ComfyUI permite añadir interpolación de fotogramas después del upscale.

Implementación Correcta

Añade el nodo Frame Interpolation (RIFE o DAIN) después de Image Upscale With Model:

  • frames: Conecta desde el upscaler
  • multiplier: Establece a 1.5 para convertir 16 FPS → 24 FPS
  • model: Usa RIFE-v4.25 para balance velocidad/calidad

Orden importante: Upscale primero, interpolación después. Al revés produces resultados inferiores porque RIFE trabaja mejor con frames más nítidos.

Esto incrementará el tiempo de procesado un 30-50% adicional, pero el resultado es mucho más fluido.

Tiempos Reales de Procesado

Basados en tests con GPU RTX 3080 y 4x-UltraSharp:

Duración VídeoFotogramasTiempo TotalTiempo/Frame
1 segundo (16 FPS)165-15 seg0.3-0.9 seg
3 segundos (16 FPS)4815-50 seg0.3-1 seg
5 segundos (24 FPS)12040-120 seg0.3-1 seg

Con GPU más lenta (GTX 1080), multiplica por 1.5-2x. Con RTX 3090, los tiempos pueden reducirse a la mitad.

💡 Consejo práctico: Antes de procesar vídeos largos, haz una prueba con los primeros 16 fotogramas para calcular tiempos reales en tu hardware.

Solución de Problemas Comunes

Memoria Insuficiente

Si recibas error de VRAM:

  1. Reduce frame_load_cap a 24 fotogramas por batch
  2. Cambia a 2x-LD-AnimeSharp (menor consumo)
  3. Procesa vídeos más cortos

Fotogramas Inconsistentes

Si notas cambios de color o artefactos entre fotogramas:

  1. Verifica que VHS_LoadVideo mantiene los FPS correctos
  2. Asegúrate de usar el mismo modelo para todos los fotogramas (no cambies durante el procesado)
  3. Considera pre-procesar el vídeo original con filtros de color

Vídeo de Salida Corrupto

Si el archivo MP4 no se reproduce:

  1. Cambia el formato a WebM en VHS_VideoCombine
  2. Reduce la calidad a 85
  3. Verifica que el codec H.264 está disponible en tu sistema

Preguntas Frecuentes

P: ¿Cuánto tiempo tarda hacer upscale de un video de 5 segundos a 24fps?

R: A 24fps son 120 frames. Con 4x-UltraSharp en RTX 3060, cada frame tarda 0.5-1 segundo: total 60-120 segundos. Con RTX 3090 puede bajar a 30-60 segundos. Es significativamente más rápido que video-to-video porque no hay proceso de difusión.

P: ¿El upscale de video añade detalles o solo amplía?

R: 4x-UltraSharp interpola inteligentemente pero no ‘inventa’ contenido nuevo — solo mejora la resolución existente. Para añadir detalle real necesitarías video-to-video con denoise bajo. Para la mayoría de videos generados con Wan o Hunyuan, 4x-UltraSharp es suficiente: el resultado a 1080p se ve mucho más nítido que el original a 480p.

P: ¿Puedo combinar video upscale con frame interpolation?

R: Sí y es una combinación muy recomendada: primero upscale (480p→1080p con 4x-UltraSharp), luego interpolación de frames (16fps→24fps con RIFE). El orden importa: upscale primero, interpolación después. Al revés produce resultados inferiores porque RIFE trabaja mejor con frames más nítidos.

P: ¿Qué modelo de upscale funciona mejor para contenido de video generado con IA?

R: 4x-UltraSharp es la mejor opción para contenido de IA: produce menos artefactos de ringing que ESRGAN en bordes sintéticos. Para contenido animado usa 2x-LD-AnimeSharp o 4x-AnimeSharp. Para footage real (no generado con IA) ESRGAN puede dar más detalle percibido.

P: ¿Necesito descargar modelos especiales o vienen con ComfyUI?

R: Los modelos de upscale no vienen por defecto. Debes descargar 4x-UltraSharp desde los repositorios de Real-ESRGAN y colocarlo en models/upscale_models/. VideoHelperSuite también requiere instalación si no lo tienes.

P: ¿Funciona el upscale con vídeos de otros generadores como Runway o Pika?

R: Sí, completamente. VHS_LoadVideo acepta cualquier archivo MP4 o WebM, independientemente de su origen. El upscale funciona igual de bien con vídeos de cualquier fuente.

P: ¿Puedo usar upscale para mejorar vídeos antiguos o de baja calidad?

R: Sí, aunque con limitaciones. 4x-UltraSharp está optimizado para contenido generado por IA, no para vídeo degradado. Para vídeo fotográfico antiguo, 4x-ESRGAN puede ser mejor, aunque los resultados serán más variables.

Sigue leyendo

Si quieres profundizar en cómo optimizar tus generaciones de vídeo, consulta nuestra guía sobre frame interpolation en ComfyUI para mejorar fluidez. Si buscas combinar upscale con otros procesos de post-producción, explora nuestro artículo sobre color grading y ajustes de video en ComfyUI. Para entender mejor los modelos de IA disponibles, descubre las diferencias entre Wan 2.2 y HunyuanVideo y cuál elegir según tus necesidades.

Conclusión

🏆 Nuestra recomendación

El video upscale en ComfyUI es una herramienta práctica y eficiente para llevar tus generaciones de vídeo a resoluciones profesionales sin sacrificar velocidad ni calidad.

Si buscas escalar contenido de IA generado → elige 4x-UltraSharp: es la mejor opción universal, rápida y con mínimos artefactos. Si trabajas con fotografía real → ESRGAN puede ofrecer más detalle percibido. Si tu contenido es animado o ilustrado → 4x-AnimeSharp es imprescindible para preservar líneas y detalles artísticos.

Con 4x-UltraSharp, un vídeo de 480p puede llegar a 1080p en cuestión de minutos, manteniendo consistencia frame a frame. El workflow es accesible incluso para usuarios con GPU de gama media (6-8 GB de VRAM), y la curva de aprendizaje es suave si sigues los pasos descritos.

Si trabajas regularmente con Wan 2.2, HunyuanVideo u otros generadores de vídeo IA, implementar este proceso en tu pipeline de producción mejorará significativamente la calidad final de tus proyectos. Prueba el workflow con un vídeo de prueba corto, ajusta los parámetros según tu hardware, y verás cómo tus generaciones ganan nueva vida en alta resolución.

Preguntas frecuentes

¿Cuánto tiempo tarda hacer upscale de un video de 5 segundos a 24fps?
A 24fps son 120 frames. Con 4x-UltraSharp en RTX 3060, cada frame tarda 0.5-1 segundo: total 60-120 segundos. Con RTX 3090 puede bajar a 30-60 segundos. Es significativamente más rápido que video-to-video porque no hay proceso de difusión.
¿El upscale de video añade detalles o solo amplía?
4x-UltraSharp interpola inteligentemente pero no 'inventa' contenido nuevo — solo mejora la resolución existente. Para añadir detalle real necesitarías video-to-video con denoise bajo. Para la mayoría de videos generados con Wan o Hunyuan, 4x-UltraSharp es suficiente: el resultado a 1080p se ve mucho más nítido que el original a 480p.
¿Puedo combinar video upscale con frame interpolation?
Sí y es una combinación muy recomendada: primero upscale (480p→1080p con 4x-UltraSharp), luego interpolación de frames (16fps→24fps con RIFE). El orden importa: upscale primero, interpolación después. Al revés produce resultados inferiores porque RIFE trabaja mejor con frames más nítidos.
¿Qué modelo de upscale funciona mejor para contenido de video generado con IA?
4x-UltraSharp es la mejor opción para contenido de IA: produce menos artefactos de ringing que ESRGAN en bordes sintéticos. Para contenido animado usa 2x-LD-AnimeSharp o 4x-AnimeSharp. Para footage real (no generado con IA) ESRGAN puede dar más detalle percibido.
Compartir X LinkedIn

También te puede interesar