SDXL en ComfyUI: Workflow Base, Parámetros y Modelos Recomendados
Si trabajas con generación de imágenes por IA, probablemente hayas escuchado que SDXL en ComfyUI es el siguiente nivel respecto a Stable Diffusion 1.5. Y es verdad: esta arquitectura representa un salto cualitativo importante en resolución nativa, coherencia y flexibilidad. Pero aquí viene el problema: la configuración correcta del SDXL workflow en ComfyUI no es intuitiva si vienes de versiones anteriores. Los parámetros que funcionaban antes simplemente no aplican aquí, y eso genera frustración en muchos usuarios.
Esta guía te lleva paso a paso a través de cada aspecto clave: desde cómo estructurar tu workflow base con refiner, hasta qué parámetros optimizan la calidad, y cuáles son los mejores checkpoints SDXL disponibles para tus necesidades específicas.
Ejemplo real generado con SDXL
Generado con Juggernaut XL (finetune de SDXL), 25 pasos
De un vistazo: Resumen de Configuración SDXL
| Aspecto | Valor Recomendado | Rango Válido |
|---|---|---|
| Resolución nativa | 1024×1024 | 768×768 a 1344×768 |
| CFG Scale | 7-8 | 6-9 |
| Pasos de muestreo | 20-30 | 15-40 |
| Sampler | dpmpp_2m | dpmpp_2m, euler, dpm++ |
| Scheduler | karras | karras, normal, exponential |
| CLIP Skip | -1 (defecto) | -1 (NUNCA -2) |
| Denoise (base) | 1.0 | 1.0 (generación completa) |
| Denoise (refiner) | 0.2 | 0.15-0.3 |
| VRAM mínimo (solo base) | 6-7 GB | 8 GB recomendado |
| VRAM con refiner | 12+ GB | 14 GB ideal |
Entendiendo SDXL en ComfyUI: Diferencias Fundamentales
SDXL no es solo una versión mejorada de Stable Diffusion 1.5. Es una arquitectura completamente diferente que requiere ajustes importantes en tu forma de trabajar con SDXL parámetros ComfyUI.
Resolución Nativa y Arquitectura del Modelo
La diferencia más evidente es la resolución nativa. Mientras que SD 1.5 trabaja nativamente con 512×512, SDXL está optimizado para 1024×1024. Esto significa que si generas a esta resolución, obtendrás resultados significativamente mejores sin necesidad de upscaling posterior.
En ComfyUI, cargarás SDXL usando CheckpointLoaderSimple, no UNETLoader. El checkpoint es un archivo único que contiene todo lo necesario: el modelo base, el VAE integrado y la información de configuración. Esto simplifica el flujo de trabajo comparado con arquitecturas anteriores donde necesitabas cargar componentes por separado.
El Sistema de Dos Etapas: Base y Refiner
SDXL introduce un concepto crucial: el modelo refiner. A diferencia de SD 1.5 donde generabas la imagen completa en un solo paso, SDXL funciona en dos fases:
- Base (sd_xl_base_1.0): Genera la estructura general y composición
- Refiner (sd_xl_refiner): Añade detalles finos y mejora la coherencia
El refiner es opcional pero altamente recomendado si tienes suficiente VRAM. En 8GB apenas cabe ejecutar ambos modelos secuencialmente, así que en hardware limitado deberás usar solo el base.
💡 Consejo: Si tienes 12GB o más de VRAM, el refiner vale la pena. Los detalles faciales y las texturas mejoran notablemente.
👉 Lo que necesitas saber: SDXL requiere una resolución nativa más alta (1024×1024) y ofrece un sistema de dos etapas (base + refiner) que mejora significativamente la calidad de detalles, aunque consume más VRAM.
Workflow Base: Estructura Paso a Paso
Un workflow efectivo en ComfyUI con SDXL sigue esta estructura lógica. La clave es adaptar tu enfoque según tu disponibilidad de VRAM.
Configuración sin Refiner (Para VRAM Limitada)
Si trabajas con 6-8GB de VRAM, este es tu SDXL workflow base recomendado:
- Load Checkpoint → Carga sd_xl_base_1.0
- CLIP Text Encode → Tu prompt positivo
- CLIP Text Encode → Tu prompt negativo
- KSampler → Genera la imagen con parámetros óptimos
- VAE Decode → Convierte el resultado a imagen visible
Este flujo es directo y eficiente. La clave está en los parámetros del KSampler, que veremos en la siguiente sección.
Configuración con Refiner (Para VRAM Suficiente)
Con 12GB+ de VRAM, puedes aprovechar el refiner para mejoras notables:
- Load Checkpoint → Carga sd_xl_base_1.0
- CLIP Text Encode (positivo y negativo)
- KSampler → Ejecuta el base con
denoise: 1.0yend_at_step: 15(si usas 20 steps totales) - Load Checkpoint → Carga sd_xl_refiner
- CLIP Text Encode (repite con los mismos prompts)
- KSampler → Refiner con
start_at_step: 15,denoise: 0.2, steps: 5-10 - VAE Decode → Resultado final
El refiner toma la salida del base y la refina en los últimos pasos. El denoise bajo (0.2) es crucial: le dice al refiner que solo haga ajustes menores, no que regenere la imagen completa.
⚠️ Importante: Si usas refiner, nunca olvides que el denoise debe estar entre 0.15 y 0.3. Valores superiores harán que regenere la imagen completa en lugar de refinarla.
👉 Lo que necesitas saber: Usa la configuración sin refiner si tienes 8GB VRAM; con 12GB+ puedes implementar el sistema de dos etapas para resultados profesionales.
Parámetros Óptimos para SDXL
La configuración de parámetros es donde muchos usuarios cometen errores. SDXL responde diferente a SD 1.5, y entender estas diferencias es fundamental para obtener buenos resultados.
CFG Scale (Classifier-Free Guidance)
Rango recomendado: 7-8
A diferencia de SD 1.5 donde valores de 10-15 eran comunes, SDXL funciona mejor con CFG más bajo. Valores superiores a 8 tienden a producir saturación de colores y artefactos. Si notas que tus imágenes se ven demasiado “forzadas” o con colores planos, baja el CFG a 6.5-7.
Pasos de Muestreo (Steps)
Rango recomendado: 20-30
SDXL converge más rápido que SD 1.5. Con 20 pasos obtienes resultados sólidos, y 30 es el punto de rendimientos decrecientes. Más allá de 30, el tiempo de procesamiento aumenta sin mejoras visuales significativas.
Sampler y Scheduler
Sampler recomendado: dpmpp_2m Scheduler recomendado: karras
Esta combinación ofrece el mejor balance entre calidad y velocidad. Aunque otros samplers funcionan (euler, dpm++), dpmpp_2m es el estándar de la industria para SDXL.
CLIP Skip: El Error Más Común
Aquí está el error más crítico que cometen usuarios que vienen de SD 1.5. En esa versión usabas CLIP skip -2. En SDXL, deja CLIP skip en -1 (valor por defecto). El modelo base de SDXL está entrenado para trabajar con la salida completa del codificador CLIP, no con capas intermedias. Usar -2 degradará significativamente tus resultados.
⚠️ Importante: CLIP skip -2 en SDXL arruina la calidad. Punto. Úsalo solo en -1.
Denoise
Para la imagen base: 1.0 (generación completa) Para el refiner: 0.2 (refinamiento ligero)
👉 Lo que necesitas saber: Los parámetros clave son CFG 7-8, steps 20-30, sampler dpmpp_2m, scheduler karras, y CLIP skip -1. Este conjunto produce resultados consistentes en la mayoría de casos.
Mejores Checkpoints SDXL: Comparativa Práctica
La elección del checkpoint determina el estilo y calidad de tus generaciones. Aquí están los modelos gratuitos más populares:
| Checkpoint | Especialidad | Velocidad | Calidad Fotorrealista | Mejor Para |
|---|---|---|---|---|
| Juggernaut XL v9 | Fotorrealismo general | Normal | ⭐⭐⭐⭐⭐ | Retratos, productos, escenas realistas |
| RealVisXL V5 | Personas reales | Normal | ⭐⭐⭐⭐⭐ | Rostros, fotografía de personas |
| SDXL-Lightning | Generación rápida | Muy rápida (4 steps) | ⭐⭐⭐⭐ | Iteración rápida, pruebas |
| Pony Diffusion XL | Anime e ilustración | Normal | N/A | Arte, personajes, ilustración digital |
| sd_xl_base_1.0 | Uso general versátil | Normal | ⭐⭐⭐⭐ | Punto de partida, experimentación |
Juggernaut XL v9: El Favorito del Fotorrealismo
Juggernaut XL ComfyUI es prácticamente el estándar actual para generación fotorrealista. Es un finetune de SDXL entrenado específicamente con datos de fotografía realista de alta calidad. Produce colores naturales, texturas realistas y maneja bien los detalles finos. Úsalo con los parámetros base (CFG 7-8, steps 20-30) y obtendrás resultados consistentes y profesionales.
Cuándo usarlo: Cuando necesites fotorrealismo general, productos, escenas de interiores, o cualquier contexto que requiera apariencia fotográfica.
RealVisXL V5: Especialista en Rostros
Si tu enfoque es generar personas, RealVisXL es superior a Juggernaut. Produce rostros más coherentes y naturales, con mejor manejo de expresiones faciales y proporciones. La diferencia es especialmente notable en detalles faciales y ojos.
Cuándo usarlo: Retratos, perfiles de LinkedIn, fotografía de personas, cualquier proyecto centrado en rostros.
SDXL-Lightning: El Acelerador
Este modelo requiere configuración especial. Usa sampler euler a o dpm_multistep, y solo 4-8 pasos. Es perfecto cuando necesitas resultados rápidos para iteración, aunque la calidad es ligeramente inferior a los modelos estándar.
Cuándo usarlo: Generación rápida, pruebas de prompts, iteración ágil, cuando la velocidad es prioritaria sobre la perfección.
Pony Diffusion XL: Dominio del Arte Digital
Para anime, ilustración y arte digital, Pony Diffusion XL es superior a cualquier checkpoint fotorrealista. Entiende mejor los estilos artísticos y produce composiciones más interesantes.
Cuándo usarlo: Personajes de anime, ilustración digital, arte conceptual, cualquier proyecto artístico no fotorrealista.
💡 Consejo: Descarga varios checkpoints y pruébalos con el mismo prompt. Verás diferencias dramáticas. Juggernaut es tu punto de partida seguro.
👉 Lo que necesitas saber: Elige Juggernaut XL para fotorrealismo general, RealVisXL si priorizas rostros, SDXL-Lightning para velocidad, y Pony Diffusion XL para arte digital.
El VAE: Detalle Frecuentemente Ignorado
El checkpoint de SDXL ya incluye un VAE integrado. Sin embargo, descargar sdxl_vae.safetensors por separado y usarlo explícitamente mejora los resultados notablemente.
¿Por qué? El VAE separado produce colores menos saturados y más naturales. Si notas que tus imágenes tienen colores demasiado vibrantes o “plásticos”, esta es la solución. Para usarlo en ComfyUI, simplemente carga el VAE con VAE Loader antes de tu VAE Decode. El impacto es inmediato:
- Colores más realistas
- Menos artefactos de compresión
- Mejor preservación de detalles
📌 A tener en cuenta: El VAE separado hace una diferencia real. No es un cambio cosmético. Si generas muchas imágenes, descargarlo vale totalmente la pena.
Ajustes Avanzados: Cuándo Usar Refiner
El refiner no siempre es necesario. Considera estos escenarios:
| Usa Refiner | No Uses Refiner |
|---|---|
| ✅ Generas retratos o primeros planos | ❌ Tu VRAM es limitada (6-8GB) |
| ✅ Tienes suficiente VRAM (12GB+) | ❌ Necesitas velocidad |
| ✅ Buscas máxima calidad | ❌ Generas muchas variaciones rápidamente |
| ✅ Trabajas con prompts complejos | ❌ Trabajas con SDXL-Lightning |
| ✅ Proyecto con deadline flexible | ❌ Proyecto con deadline ajustado |
Con refiner, tu tiempo de procesamiento aumenta aproximadamente 40-50%, pero la mejora visual puede justificarlo en proyectos donde la calidad es prioritaria. Los detalles faciales, texturas y coherencia general mejoran notablemente.
Preguntas Frecuentes
¿Cuál es la diferencia entre SDXL base y SDXL con refiner?
El base genera la composición general; el refiner añade detalles finos en los últimos pasos de generación. El refiner mejora texturas, piel y detalles pequeños, pero requiere cargar dos modelos de ~6GB cada uno. Con 8GB VRAM usa solo el base; con 12GB+ puedes usar ambos.
¿SDXL funciona en 8GB VRAM sin problemas?
Sí, cómodamente. Un checkpoint SDXL ocupa 6-7GB en memoria. Con 8GB queda margen para la generación. Sin embargo, no podrás usar el refiner simultáneamente. Resoluciones superiores a 1344×768 pueden dar problemas de memoria con 8GB.
¿Por qué Juggernaut XL produce mejores fotos de personas que el SDXL base?
Juggernaut XL es un finetune de SDXL entrenado específicamente con datos de fotografía realista de alta calidad. El SDXL base es más generalista. Los fineTunes como Juggernaut, RealVisXL o PhotoReal están optimizados para casos de uso concretos y producen mejores resultados en ese nicho.
¿Puedo usar LoRAs de SD 1.5 con SDXL?
No. Los LoRAs son específicos de la arquitectura del modelo base. Un LoRA entrenado para SD 1.5 no es compatible con SDXL. Busca específicamente LoRAs etiquetados como ‘SDXL’ o ‘XL’ en Civitai u otras plataformas.
¿Qué pasa si genero a resoluciones menores como 768×768?
Funciona, pero SDXL está optimizado para 1024×1024. A resoluciones menores, la calidad relativa disminuye. Usa 1024×1024 o múltiplos de 64 cercanos (como 1152×896).
¿Es obligatorio usar refiner?
No. El base solo produce resultados excelentes. El refiner es una mejora opcional si tienes VRAM disponible.
Sigue leyendo
Si quieres profundizar en cómo optimizar prompts para SDXL, consulta nuestra guía sobre ingeniería de prompts avanzada en ComfyUI. Para explorar cómo entrenar tus propios LoRAs SDXL personalizados, descubre nuestro tutorial sobre fine-tuning de modelos de difusión. Y si necesitas acelerar tu flujo de trabajo, no te pierdas nuestro artículo sobre optimización de hardware para generación de imágenes.
Conclusión: Tu Próximo Paso
🏆 Nuestra recomendación
Si buscas fotorrealismo general → elige Juggernaut XL v9 con CFG 7, steps 25, resolución 1024×1024.
Si priorizas rostros perfectos → elige RealVisXL V5 con los mismos parámetros.
Si necesitas velocidad → elige SDXL-Lightning con 4 pasos y sampler euler a.
Si trabajas con arte digital → elige Pony Diffusion XL con prompts descriptivos de estilo.
SDXL en ComfyUI requiere entender cómo funciona fundamentalmente diferente a SD 1.5. Los parámetros que funcionaban antes no aplican aquí, y eso es lo que genera frustración en muchos usuarios que migran. Comienza con este setup: Juggernaut XL v9, CFG 7, steps 25, sampler dpmpp_2m, scheduler karras, resolución 1024×1024. Genera 5-10 imágenes y ajusta desde ahí. Si quieres refiner, añádelo solo cuando tengas estable el workflow base.
La curva de aprendizaje es corta pero importante. Una vez que domines estos fundamentos, tendrás control total sobre tus generaciones. Descarga ComfyUI si no lo has hecho, importa un checkpoint SDXL y experimenta con estos parámetros ahora mismo.
Siguientes pasos en ComfyUI
Primeros pasos
Preguntas frecuentes
- ¿Cuál es la diferencia entre SDXL base y SDXL con refiner?
- El base genera la composición general; el refiner añade detalles finos en los últimos pasos de generación. El refiner mejora texturas, piel y detalles pequeños, pero requiere cargar dos modelos de ~6GB cada uno. Con 8GB VRAM usa solo el base; con 12GB+ puedes usar ambos.
- ¿SDXL funciona en 8GB VRAM sin problemas?
- Sí, cómodamente. Un checkpoint SDXL ocupa 6-7GB en memoria. Con 8GB queda margen para la generación. Sin embargo, no podrás usar el refiner simultáneamente. Resoluciones superiores a 1344x768 pueden dar problemas de memoria con 8GB.
- ¿Por qué Juggernaut XL produce mejores fotos de personas que el SDXL base?
- Juggernaut XL es un finetune de SDXL entrenado específicamente con datos de fotografía realista de alta calidad. El SDXL base es más generalista. Los fineTunes como Juggernaut, RealVisXL o PhotoReal están optimizados para casos de uso concretos y producen mejores resultados en ese nicho.
- ¿Puedo usar LoRAs de SD 1.5 con SDXL?
- No. Los LoRAs son específicos de la arquitectura del modelo base. Un LoRA entrenado para SD 1.5 no es compatible con SDXL. Busca específicamente LoRAs etiquetados como 'SDXL' o 'XL' en Civitai u otras plataformas.