ComfyLab
Cómo Acelerar ComfyUI: xFormers, Flash Attention y Torch Compile

Cómo Acelerar ComfyUI: xFormers, Flash Attention y Torch Compile

6GB VRAM VRAM Intermedio 11 min SDXL / FLUX
Savien

Cómo Acelerar ComfyUI: xFormers, Flash Attention y Torch Compile

Si generas imágenes en ComfyUI, sabes que cada segundo cuenta. Esperar 12-15 segundos por imagen en SDXL o más tiempo aún en Flux puede ralentizar tu flujo de trabajo, especialmente en proyectos que requieren múltiples iteraciones. Las técnicas de esta guía se basan en xFormers (Meta AI) y en la documentación oficial de torch.compile de PyTorch. La buena noticia es que acelerar ComfyUI no requiere hardware costoso: existen optimizaciones concretas y probadas que pueden reducir ese tiempo entre un 20% y un 80% según qué técnicas combines.

En esta guía te mostramos cómo instalar y configurar las tres optimizaciones más efectivas para ComfyUI más rápido: xFormers, Flash Attention y Torch Compile. También incluimos samplers rápidos, configuraciones por GPU y respuestas a las dudas más comunes.

De un vistazo: Impacto de cada optimización

OptimizaciónGanancia de velocidadComplejidadMejor para
xFormers+20-30%Muy bajaSDXL, SD 1.5
Flash Attention 2+15-25%Muy bajaFlux, modelos recientes
Torch Compile+20-40%MediaSesiones largas (>10 gen)
Samplers rápidos+50-80%Muy bajaCualquier modelo
TAESD+30-40% (preview)Muy bajaWorkflow iterativo
Reducir steps+25-50%Muy bajaCualquier modelo
CFG más bajo+5-10%Muy bajaCualquier modelo
—fast flag+5-15%Muy bajaTodas las GPU

xFormers: La optimización clásica para SDXL

xFormers es una librería de Meta que optimiza las operaciones de attention en redes neuronales. Aunque fue revolucionaria hace dos años, sigue siendo muy relevante para ComfyUI rendimiento en modelos SDXL y Stable Diffusion 1.5, especialmente en GPUs NVIDIA de gama media.

Cómo instalar xFormers correctamente

El proceso es simple pero requiere que coincidan las versiones de PyTorch y CUDA. Con tu entorno virtual de ComfyUI activado:

pip install xformers

Para garantizar compatibilidad total, consulta la tabla de compatibilidad en el repositorio oficial de xFormers en GitHub y especifica la versión si es necesario:

pip install xformers==X.Y.Z --index-url https://download.pytorch.org/whl/cuXXX

Una vez instalado, ComfyUI lo detectará automáticamente al iniciar y lo utilizará sin necesidad de flags adicionales.

Compatibilidad por tipo de GPU

📌 A tener en cuenta: No todos los sistemas pueden usar xFormers. Verifica tu configuración antes de instalar.

  • GPU NVIDIA: Funciona perfectamente con CUDA 11.8 o superior
  • GPU AMD: Soporte limitado; mejor usar Flash Attention
  • CPU: No es compatible

Para verificar que xFormers está activo, abre la consola de ComfyUI al iniciar. Si ves un mensaje como “Using xformers attention” significa que está funcionando correctamente.

Impacto real en velocidad

Con SDXL a 1024x1024 con 20 steps, una generación típica pasa de 12-15 segundos a 8-10 segundos en RTX 3060. En GPUs más antiguas como RTX 2070 o RTX 3070, el impacto es aún más notable (hasta 30% de mejora). Para Flux, el impacto es menor porque ya usa mecanismos de attention eficientes nativos de PyTorch 2.0.

👉 Conclusión rápida: xFormers es la instalación más simple para ganar 20-30% de velocidad en SDXL. Aunque no es revolucionaria hoy, sigue siendo efectiva y compatible con casi cualquier GPU NVIDIA.


Flash Attention 2: La alternativa moderna integrada

Flash Attention 2 es la evolución natural de xFormers. Está integrada directamente en PyTorch 2.0 y posteriores, y ComfyUI la usa automáticamente en modelos que la soportan. Es más eficiente que xFormers y no requiere instalación adicional.

Cuándo se activa automáticamente

Flash Attention 2 funciona por defecto en:

  • Modelos Flux (todos los tipos)
  • Modelos SDXL recientes
  • Cualquier modelo que use PyTorch 2.0+

ComfyUI detecta automáticamente si tu GPU puede usarla. No necesitas hacer nada especial.

Forzar Flash Attention con flags

Si quieres asegurar que se usa en todos los modelos compatibles, inicia ComfyUI con:

python main.py --use-flash-attention

Este flag es especialmente útil si tienes una GPU AMD o si experimentas problemas con la detección automática.

xFormers vs Flash Attention 2: Comparativa

AspectoxFormersFlash Attention 2
Velocidad+20-30%+15-25%
InstalaciónRequiere pipIncluida en PyTorch 2.0+
Compatibilidad GPUNVIDIA principalmenteNVIDIA, AMD, CPU
Modelos soportadosSDXL, SD 1.5Flux, SDXL, modelos recientes
EstabilidadMuy estableMuy estable

Flash Attention 2 es generalmente 5-10% más rápido que xFormers en operaciones de attention. Si tienes ambas instaladas, ComfyUI priorizará Flash Attention 2 automáticamente.

👉 Conclusión rápida: Flash Attention 2 es la opción moderna y no requiere instalación. Si usas PyTorch 2.0+, ya la tienes disponible. Para máxima compatibilidad, instala xFormers como fallback.


Torch Compile: Compilación JIT para sesiones largas

Torch Compile es una característica de PyTorch 2.0 que compila el modelo a código máquina optimizado. El truco principal: la primera generación es extremadamente lenta (15-30 minutos compilando), pero las siguientes son 20-40% más rápidas.

¿Vale la pena Torch Compile para uso casual?

Solo si haces muchas generaciones en la misma sesión. La compilación inicial tarda 15-30 minutos (solo la primera vez en el arranque). Si generas 50+ imágenes seguidas, el ahorro acumulado compensa. Para generar 2-3 imágenes y cerrar ComfyUI, no vale la pena.

Cómo activarlo

python main.py --torch-compile

La primera generación mostrará un progreso lento. Espera pacientemente. Las siguientes generaciones serán notablemente más rápidas.

Limitaciones conocidas

⚠️ Importante: Torch Compile no es compatible con todos los workflows. Revisa estas limitaciones antes de activarlo.

  • No funciona bien con algunos nodos personalizados
  • Requiere más VRAM durante la compilación
  • Puede causar problemas con cambios dinámicos de modelo

👉 Conclusión rápida: Torch Compile es para workflows profesionales con muchas generaciones. Para uso casual, no compensa el tiempo de compilación inicial.


Samplers rápidos: El impacto más grande (50-80%)

Si buscas acelerar ComfyUI sin complicaciones técnicas, los samplers rápidos son tu mejor opción. Pueden reducir el tiempo total entre un 50% y un 80%.

SDXL-Lightning: 4 steps con excelente calidad

SDXL-Lightning está diseñado para generar en 4 steps en lugar de 20-30:

  • Configuración: 4 steps, sampler Euler a, CFG 5.0
  • Tiempo: Una generación que toma 40 segundos con SDXL estándar toma 8-10 segundos con Lightning
  • Calidad: Comparable a SDXL estándar con 20 steps

Flux Schnell: El más rápido en absoluto

Si usas Flux, la versión Schnell está optimizada para velocidad:

  • Configuración: 4 steps, sampler Euler, CFG 3.5
  • Tiempo: Las imágenes se generan en 4-6 segundos
  • Calidad: Excelente para imágenes de calidad razonable; Flux Pro es más lento pero tiene mejor control

LCM Sampler: Alternativa flexible

LCM (Latent Consistency Models) permite 4-8 steps con buena calidad. Compatible con muchos modelos base y LoRAs.

SamplerStepsVelocidadMejor para
SDXL-Lightning4Muy rápidoIteraciones rápidas
Flux Schnell4Muy rápidoFlux, máxima velocidad
LCM4-8RápidoModelos variados
SDXL estándar20-30NormalMáxima calidad

👉 Conclusión rápida: Los samplers rápidos ofrecen la mayor ganancia de velocidad (50-80%) con mínimo esfuerzo. Son tu primer paso si quieres ComfyUI más rápido de inmediato.


Optimizaciones secundarias pero efectivas

TAESD: Preview en tiempo real

TAESD (Tiny AutoEncoder Stable Diffusion) es un auto-encoder comprimido que genera previsualizaciones en tiempo real sin afectar la calidad final.

Actívalo en ComfyUI:

  • Descarga el modelo TAESD desde el navegador de modelos
  • Usa el nodo “LatentPreview” en tu workflow
  • O habilítalo en Settings → Preview mode

El preview aparece mientras se genera, permitiéndote ver el progreso sin esperar. No ralentiza la generación final.

Reducir steps sin perder calidad

💡 Consejo: Cambiar de 30 a 20 steps es el ajuste más eficaz sin sacrificar calidad visual perceptible.

Cambiar de 30 a 20 steps con SDXL + sampler Karras reduce el tiempo un 33% con pérdida perceptible mínima:

  • 20 steps: Generación rápida, calidad buena
  • 25 steps: Balance óptimo
  • 30+ steps: Solo si buscas máximo detalle

CFG más bajo

Reducir CFG de 7-8 a 5-6 genera 5-10% más rápido con cambios visuales casi imperceptibles. Útil para iteraciones rápidas.

—fast flag

Inicia ComfyUI con:

python main.py --fast

Este flag habilita optimizaciones experimentales generales que pueden dar 5-15% de mejora según tu GPU.


Configuración optimizada por tipo de GPU

NVIDIA CUDA (RTX 4090, RTX 3090, etc.)

Configuración recomendada:

  • xFormers instalado (opcional, Flash Attention es suficiente)
  • Flash Attention habilitado automáticamente
  • Torch Compile opcional para sesiones largas
  • TAESD para preview

Comando de inicio:

python main.py --use-flash-attention --fast

NVIDIA CUDA (GPU antiguas: RTX 2080, GTX 1080)

Configuración recomendada:

  • xFormers es crítico
  • Flash Attention puede no estar disponible
  • Torch Compile no recomendado (requiere mucha VRAM)

Comando:

python main.py --fast

AMD (RX 6800, RX 7900)

Configuración recomendada:

  • Flash Attention con flag explícito
  • xFormers no recomendado (soporte limitado)

Comando:

python main.py --use-flash-attention --fast

CPU

Ninguna de estas optimizaciones ayuda significativamente:

  • Usa samplers rápidos y steps bajos
  • Considera usar quantización (int8)
  • Espera tiempos de generación largos (varios minutos por imagen)

Preguntas frecuentes verificadas

P: ¿Cuánto más rápido es xFormers en la práctica?

R: En SDXL a 1024x1024 con 20 steps, una generación típica pasa de 12-15 segundos a 8-10 segundos en RTX 3060. En GPUs más antiguas (RTX 2070, RTX 3070) el impacto es más notable. Para Flux, el impacto es menor porque ya usa mecanismos de attention eficientes.

P: ¿Cómo instalo xFormers correctamente?

R: Ejecuta pip install xformers con el venv de ComfyUI activado. Asegúrate de que la versión de xFormers es compatible con tu versión de PyTorch: pip install xformers==X.Y.Z --index-url https://download.pytorch.org/whl/cuXXX. La forma más segura es consultar la tabla de compatibilidad en el repositorio oficial de xFormers en GitHub.

P: ¿Vale la pena Torch Compile para uso casual?

R: Solo si haces muchas generaciones en la misma sesión. La compilación inicial tarda 15-30 minutos (solo la primera vez en el arranque). Si generas 50+ imágenes seguidas, el ahorro acumulado compensa. Para generar 2-3 imágenes y cerrar ComfyUI, no vale la pena.

P: ¿Qué sampler es el más rápido sin perder calidad?

R: Para SDXL: dpmpp_2m con 20 steps y scheduler karras. Para SDXL con velocidad máxima: SDXL-Lightning (4 steps, Euler a, sin karras). Para Flux: Euler con 20 steps. Flux Schnell con 4 steps es el más rápido en absoluto para imágenes de calidad razonable.

P: ¿Puedo usar xFormers y Flash Attention al mismo tiempo?

R: Sí, pero ComfyUI priorizará Flash Attention 2 automáticamente. No hay conflicto. Si Flash Attention no está disponible, usará xFormers como fallback.

P: ¿Por qué mi primera generación con Torch Compile es tan lenta?

R: La compilación JIT traduce el modelo a código máquina. Es un proceso único que ocurre una sola vez por sesión. Las siguientes generaciones serán mucho más rápidas.

P: ¿TAESD reduce la calidad de la imagen final?

R: No. TAESD solo afecta el preview durante la generación. La imagen final se genera con el auto-encoder estándar de calidad completa.


Sigue leyendo

Si quieres profundizar en cómo optimizar modelos específicos, consulta nuestra guía sobre configuración avanzada de SDXL. Para entender mejor cómo funcionan los samplers y elegir el mejor para tu caso, revisa nuestro artículo sobre comparativa de samplers en ComfyUI. Si trabajas con Flux, no te pierdas nuestra guía completa sobre Flux vs SDXL: diferencias, velocidad y calidad.


Conclusión: Tu estrategia de optimización

🏆 Nuestra recomendación

  • Si buscas máxima velocidad ahora mismo: Cambia a SDXL-Lightning o Flux Schnell. Tiempo de configuración: 5 minutos. Ganancia: 50-80% más rápido.
  • Si tienes GPU NVIDIA reciente y quieres optimización técnica: Instala xFormers y habilita Flash Attention con python main.py --use-flash-attention --fast.
  • Si trabajas en sesiones largas (50+ generaciones): Experimenta con Torch Compile después de dominar los samplers rápidos.
  • Si quieres balance entre velocidad y calidad: Usa SDXL estándar con 20 steps, sampler dpmpp_2m, scheduler karras, y CFG 7.0.

Comienza con las optimizaciones simples (—fast flag, reducir steps, cambiar a samplers rápidos) y ve cómo responde tu sistema. Si necesitas más velocidad, agrega xFormers o Flash Attention. Cada GPU es diferente, así que prueba y mide los tiempos reales en tu configuración. Los segundos que ahorres en cada generación se multiplicarán en tus proyectos y te permitirán iterar más rápido.

Preguntas frecuentes

¿Cuánto más rápido es xFormers en la práctica?
En SDXL a 1024x1024 con 20 steps: con xFormers una generación típica pasa de 12-15 segundos a 8-10 segundos en RTX 3060. En GPUs más antiguas (RTX 2070, RTX 3070) el impacto es más notable. Para FLUX el impacto es menor porque ya usa mecanismos de attention eficientes.
¿Cómo instalo xFormers correctamente?
pip install xformers (con el venv de ComfyUI activado). Asegúrate de que la versión de xFormers es compatible con tu versión de PyTorch: pip install xformers==X.Y.Z --index-url https://download.pytorch.org/whl/cuXXX. La forma más segura es consultar la tabla de compatibilidad en el repositorio oficial de xFormers en GitHub.
¿Vale la pena Torch Compile para uso casual?
Solo si haces muchas generaciones en la misma sesión. La compilación inicial tarda 15-30 minutos (solo la primera vez en el arranque). Si generas 50+ imágenes seguidas, el ahorro acumulado compensa. Para generar 2-3 imágenes y cerrar ComfyUI, no vale la pena.
¿Qué sampler es el más rápido sin perder calidad?
Para SDXL: dpmpp_2m con 20 steps y scheduler karras. Para SDXL con velocidad máxima: SDXL-Lightning (4 steps, Euler a, sin karras). Para FLUX: Euler con 20 steps. FLUX Schnell con 4 steps es el más rápido en absoluto para imágenes de calidad razonable.
Compartir X LinkedIn

También te puede interesar