El ecosistema de modelos de IA generativa en 2026 es rico y algo caótico. Cada semana aparece algo nuevo en HuggingFace. Esta guía filtra el ruido y se centra en lo que realmente merece tu atención y espacio en disco.
Comparativa real de modelos
FLUX.1 Dev
SDXL (Juggernaut XL)
Modelos de generación de imagen
FLUX.1 — El estado del arte
Black Forest Labs (los creadores originales de Stable Diffusion) lanzaron FLUX.1 a mediados de 2024 y sigue siendo el modelo de imagen más impresionante en 2026.
Existen tres variantes:
| Variante | Uso | VRAM | Licencia |
|---|---|---|---|
| FLUX.1 Dev | Máxima calidad | 12GB+ (o 6-8GB con GGUF) | No comercial |
| FLUX.1 Schnell | Velocidad (4-8 pasos) | 12GB+ (o 6-8GB con GGUF) | Apache 2.0 |
| FLUX.1 Pro | Solo API | — | Comercial |
Lo que hace a FLUX especial:
- Comprensión de texto superior — entiende instrucciones complejas y largas sin perder detalles
- Coherencia anatómica — manos, caras y proporciones mucho más correctas que en generaciones anteriores
- Texto en imágenes — puede generar texto legible dentro de las imágenes, algo que SD nunca hizo bien
Para usarlo con GPUs de 6-8GB VRAM, la guía de FLUX con poca VRAM explica la cuantización GGUF paso a paso.
La comunidad en CivitAI tiene además decenas de fine-tunes de FLUX para estilos específicos, incluyendo versiones sin restricciones de contenido.
Dónde descargarlo: huggingface.co/black-forest-labs/FLUX.1-dev
SDXL y su ecosistema — El versátil
Stable Diffusion XL (SDXL 1.0) de Stability AI es la base de uno de los ecosistemas de fine-tuning más ricos de la historia de la IA generativa. El modelo base en sí es competente, pero su verdadero valor está en los miles de checkpoints entrenados encima.
Requisitos: 6-8GB VRAM para el modelo base (7.5GB el archivo).
Los fine-tunes más destacados de 2026:
Pony Diffusion V6 XL — El rey para ilustración, anime y estilos artísticos. Entrenado con tagging de Danbooru, entiende cientos de keywords de arte. No tiene filtros de contenido. Perfecto para arte de personajes, escenas de anime y estilos visuales definidos.
Juggernaut XL — El mejor para fotorrealismo dentro del ecosistema SDXL. Retratos, escenas naturales, arquitectura. Incluye un VAE integrado que mejora la saturación y el detalle.
RealVisXL — Orientado a fotografía hiperrealista. Muy bueno para retratos con iluminación natural.
Dónde descargarlos: CivitAI (filtra por SDXL y ordena por “Most Downloaded”)
SD 1.5 — El clásico eficiente
SD 1.5 es de 2022, pesa ~2GB y funciona con GPUs de 4GB VRAM. En términos absolutos de calidad ha sido superado, pero tiene ventajas prácticas:
- Velocidad: genera en segundos en cualquier GPU moderna
- Ecosistema LoRA: el mayor ecosistema de LoRAs de la historia, con estilos para absolutamente todo
- Bajo consumo: ideal para iteraciones rápidas o cuando el objetivo es el estilo, no el fotorrealismo
Si tu GPU tiene 4-6GB VRAM, empezar con SD 1.5 es completamente razonable antes de dar el salto a SDXL o FLUX.
Modelos de generación de vídeo
La generación de vídeo con IA ha madurado enormemente en 2025-2026. ComfyUI es la plataforma principal para ejecutar estos modelos en local.
Wan 2.2 — El referente en calidad
Wan 2.2 (desarrollado por Alibaba) es el modelo de texto-a-vídeo e imagen-a-vídeo más capaz disponible en local a fecha de 2026. Supera a AnimateDiff en coherencia temporal y calidad visual.
| Variante | VRAM necesaria | Caso de uso |
|---|---|---|
| Wan 2.2 14B | 24GB (o 16GB con cuantización) | Máxima calidad, clips de 4-10s |
| Wan 2.2 1.3B | 8GB | Velocidad y pruebas rápidas |
Genera vídeo a 480×720 (formato vertical 9:16) o 720×480 nativo. La resolución está limitada por la memoria, no por el modelo.
Para el uso de Wan en ComfyUI, la guía de generación de vídeos incluye el workflow descargable.
Dónde descargarlo: huggingface.co/Wan-AI
LTX-Video 2.3 — El más rápido
LTX-Video de Lightricks es el modelo de vídeo más rápido para GPUs de gama media. A diferencia de Wan, genera en tiempo casi real en GPUs con 8GB+ VRAM.
No alcanza la calidad de Wan 2.2 en clips largos, pero para iteraciones rápidas y clips de 2-5 segundos es imbatible en velocidad. Existe una versión sin filtros de contenido disponible en CivitAI.
La guía de LTX 2.3 en ComfyUI explica la configuración completa.
AnimateDiff — El compatible con SDXL
AnimateDiff no es un modelo nuevo, pero sigue siendo relevante porque funciona sobre cualquier checkpoint de SDXL. Si ya tienes un modelo de imagen favorito, AnimateDiff añade movimiento usando el mismo checkpoint sin necesidad de descargar nada nuevo.
La calidad es inferior a Wan 2.2 para clips largos, pero la compatibilidad con el ecosistema SDXL lo hace muy versátil para estilos artísticos específicos.
Modelos de generación de audio
Stable Audio Open
De Stability AI, Stable Audio Open genera música y efectos de sonido a partir de texto. Funciona en ComfyUI con nodos de la community y produce clips de hasta 47 segundos de duración.
Ideal para:
- Efectos de sonido para proyectos de vídeo generado con IA
- Música de fondo ambiental
- Prototipos de diseño sonoro
Requisitos: ~4GB VRAM, ~12GB de RAM.
La guía de generación de audio con ComfyUI tiene el workflow listo para usar.
Tabla de decisión rápida
| Tu caso de uso | Modelo recomendado | VRAM mínima |
|---|---|---|
| Fotorrealismo, retratos | FLUX.1 Dev (o Juggernaut XL) | 6GB (GGUF) |
| Arte, anime, ilustración | Pony Diffusion V6 XL | 6GB |
| Empezar con poca GPU | SD 1.5 + LoRAs | 4GB |
| Vídeo IA de calidad | Wan 2.2 14B | 16-24GB |
| Vídeo IA rápido | LTX-Video 2.3 | 8GB |
| Audio / música | Stable Audio Open | 4GB |
Dónde encontrar modelos nuevos
El ecosistema se mueve rápido. Estas son las fuentes más fiables:
- HuggingFace — modelos técnicos oficiales, ordenados por tendencia
- CivitAI — fine-tunes comunitarios, ejemplos visuales, comentarios de usuarios
- r/comfyui y r/StableDiffusion — el radar más rápido para descubrir qué está siendo probado esta semana
Antes de descargar cualquier modelo desconocido, verifica el número de descargas, las reseñas y que el archivo sea .safetensors (el formato seguro). Evita archivos .ckpt de fuentes no verificadas.
Para aprovechar estos modelos al máximo, los artículos de prompts en ComfyUI y prompt engineering avanzado explican cómo comunicarle tus intenciones al modelo de forma efectiva.
Siguientes pasos en ComfyUI
Primeros pasos
Preguntas frecuentes
- ¿Qué modelo de imagen da mejores resultados en 2026?
- FLUX.1 Dev es el estado del arte para fotorrealismo y comprensión de texto compleja. Si tu GPU no llega a 12GB VRAM, las versiones cuantizadas GGUF de FLUX funcionan desde 6GB. Para arte y estilos, Pony Diffusion v6 XL sigue siendo la referencia.
- ¿Dónde descargo los modelos de forma segura?
- HuggingFace para modelos oficiales (Stability AI, Black Forest Labs) y CivitAI para fine-tunes comunitarios. Descarga siempre archivos .safetensors y verifica el número de descargas y los comentarios antes de usar un modelo desconocido.
- ¿Cuánto espacio ocupan todos los modelos?
- Un setup completo con FLUX.1 Dev, SDXL Base, Wan 2.2 y sus VAEs/encoders de texto puede ocupar entre 80 y 150GB. Para empezar, SD 1.5 o SDXL Base solos son suficientes.
- ¿Tengo que elegir entre imagen y vídeo, o puedo usar los mismos modelos para los dos?
- Son modelos distintos con arquitecturas diferentes. ComfyUI permite tenerlos todos instalados y cambiar entre ellos según el workflow que cargues. Solo ocupan espacio en disco cuando no están activos.