ComfyLab
GGUF en ComfyUI: Qué es, Cómo Instalarlo y Qué Calidad Esperar

GGUF en ComfyUI: Qué es, Cómo Instalarlo y Qué Calidad Esperar

4GB VRAM VRAM Principiante 12 min FLUX / SDXL / Wan (versiones GGUF)
Savien

GGUF en ComfyUI: Qué es, Cómo Instalarlo y Qué Calidad Esperar

Si trabajas con ComfyUI y tienes limitaciones de memoria en tu GPU, probablemente hayas notado que algunos modelos de difusión simplemente no caben. GGUF en ComfyUI es la solución que muchos usuarios de IA generativa estaban esperando: un formato de compresión que reduce drásticamente el consumo de VRAM sin sacrificar demasiada calidad en las imágenes finales. Este artículo te mostrará exactamente qué es GGUF, cómo instalarlo en ComfyUI y qué esperar de cada nivel de cuantización para optimizar tu flujo de trabajo.

Durante los últimos meses, GGUF ComfyUI se ha consolidado como la opción estándar para usuarios con GPUs limitadas, permitiendo ejecutar modelos como FLUX Dev en tarjetas de 8 GB que antes requerían 24 GB o más.

Calidad real con GGUF Q8

Ejemplo generado con FLUX.1 Dev cuantizado a Q8_0 — la pérdida de calidad frente al original es prácticamente imperceptible Ejemplo generado con FLUX.1 Dev cuantizado a Q8_0 — la pérdida de calidad frente al original es prácticamente imperceptible


De un vistazo: GGUF en ComfyUI

CaracterísticaBeneficio
Reducción de tamaño70% menos VRAM (24 GB → 7 GB en FLUX Dev)
Niveles de cuantizaciónQ2_K a Q8_0 (elige según tu hardware)
CompatibilidadFunciona con GPU y CPU; compatible con LoRAs normales
InstalaciónCustom node simple + descarga de modelo
Calidad esperadaQ4_K_M: casi imperceptible vs. original; Q3: ligera degradación visible

Qué es GGUF y por qué importa en ComfyUI

GGUF es un formato de archivo diseñado para almacenar modelos de IA cuantizados, es decir, comprimidos. Nació en el ecosistema de llama.cpp, una herramienta para ejecutar modelos de lenguaje en CPU, pero ha evolucionado para soportar modelos de difusión en plataformas como ComfyUI.

La cuantización es el proceso de reducir la precisión numérica de los pesos del modelo. Imagina que el modelo es un archivo de música de altísima calidad: normalmente, cada nota se almacena con una precisión extrema (32 bits). La cuantización es como comprimir ese archivo a un formato MP3: reduces datos innecesarios pero mantienes lo que realmente importa para que suene bien. En lugar de usar números de 32 bits o 16 bits, GGUF puede comprimir esos valores a 8, 6, 5, 4, 3 o incluso 2 bits. El resultado: modelos que ocupan una fracción del tamaño original pero mantienen una calidad aceptable.

💡 Consejo: Piensa en la cuantización como cambiar de una fotografía en RAW (máxima calidad, archivo enorme) a JPEG con alta compresión (menos espacio, prácticamente idéntica a simple vista).

Para darte una idea concreta: un modelo FLUX Dev completo en formato safetensors ocupa aproximadamente 24 GB. En GGUF Q4_K_M, ese mismo modelo ocupa alrededor de 7 GB. Eso es una reducción del 70%, lo que significa que muchos usuarios con GPUs de 8 GB o 12 GB pueden finalmente usar modelos grandes que antes era imposible cargar.

👉 Conclusión rápida: GGUF es cuantización inteligente que comprime modelos hasta un 70% sin perder calidad perceptible. Es la solución ideal para GPUs limitadas en ComfyUI.


GGUF vs Safetensors: Diferencias clave

Ambos son formatos para almacenar modelos, pero funcionan de maneras muy distintas. Entender sus diferencias es crucial para elegir el mejor formato según tu hardware.

Safetensors es el formato estándar en ComfyUI. Almacena los pesos del modelo sin comprimir (o con compresión mínima), manteniendo la máxima calidad. Una FLUX Dev en safetensors es idéntica a la versión original. El inconveniente: consume mucha VRAM.

GGUF comprime los pesos mediante cuantización. Esto reduce significativamente el consumo de memoria, pero introduce una pequeña pérdida de calidad. No es un cambio dramático en la mayoría de los casos, pero sí perceptible si comparas lado a lado con una versión sin cuantizar.

AspectoSafetensorsGGUF
Tamaño de archivo24 GB (FLUX Dev)6-13 GB (según nivel Q)
Consumo VRAM~24 GB~7-13 GB
Calidad de imagenMáximaMuy buena a excelente
Velocidad de generaciónEstándarSimilar o ligeramente más lenta en CPU
Compatibilidad GPUSí (y también CPU)
Complejidad de instalaciónNativaRequiere custom node

La elección depende de tu hardware. Si tienes una GPU potente, safetensors es la opción ideal. Si tienes limitaciones de VRAM, GGUF vs safetensors no es un dilema: GGUF es prácticamente imprescindible.

👉 Conclusión rápida: Safetensors = máxima calidad con alto consumo; GGUF = 70% menos VRAM con calidad imperceptiblemente menor en niveles altos de cuantización.


Niveles de cuantización: Q2_K a Q8_0

No todos los GGUF son iguales. El sufijo (Q2_K, Q4_K_M, Q8_0, etc.) indica el nivel de compresión. Aquí está la jerarquía completa para que entiendas qué esperar de cada uno:

Q2_K: La compresión más agresiva. El modelo ocupa apenas el 25% del tamaño original, pero la calidad de las imágenes se degrada notablemente. Hay pérdida visible de detalles y coherencia. Útil solo si tu GPU tiene menos de 2 GB de VRAM.

Q3_K_S, Q3_K_M, Q3_K_L: Compresión fuerte. El modelo ocupa entre el 35-40% del tamaño. La calidad es aceptable, pero los artefactos de cuantización pueden ser visibles en ciertos detalles. Recomendado para GPUs muy limitadas (4-6 GB).

Q4_K_S / Q4_K_M: El punto de equilibrio más popular. Aquí es donde la mayoría de usuarios ven el mejor balance entre tamaño y calidad. Q4_K_M es ligeramente mejor que Q4_K_S. El modelo ocupa alrededor del 50% del tamaño original, y la degradación de calidad es mínima en la mayoría de casos.

Q5_K_S / Q5_K_M: Buena calidad con compresión moderada. El tamaño es del 60-65% del original. Apenas hay diferencia perceptible con safetensors para la mayoría de usuarios. Si tienes VRAM disponible, es una excelente opción.

Q6_K: Compresión ligera, tamaño al 75% del original. Calidad muy cercana a safetensors.

Q8_0: Casi ninguna compresión, pero aún ocupa el 50% del tamaño de float16. Es el nivel más cercano a la calidad original con algunos ahorros de VRAM.

F16: No es cuantización, es simplemente el modelo en float16. Equivalente a safetensors en calidad.

Recomendaciones de cuantización por GPU

Para FLUX GGUF ComfyUI, los niveles recomendados son:

  • GPU con 6-8 GB: Q4_K_M (~7 GB) — mejor balance
  • GPU con 10-12 GB: Q5_K_M (~10 GB) — casi indistinguible del original
  • GPU con 16+ GB: Q5_K_M o Q6_K — máxima calidad con compresión moderada

⚠️ Importante: Estos valores son aproximados. El consumo real depende del tamaño de la imagen, el sampler usado y si ejecutas otros nodos simultáneamente.

👉 Conclusión rápida: Q4_K_M es el estándar recomendado para GPUs de 8 GB; Q5_K_M es prácticamente indistinguible del original si tienes espacio.


Cómo instalar GGUF en ComfyUI: Guía paso a paso

El proceso de ComfyUI GGUF instalar es sencillo si sigues estos pasos en orden.

Paso 1: Instalar el custom node

Abre ComfyUI Manager (si no lo tienes, instálalo desde el repositorio oficial). Busca “GGUF” en el gestor de nodos. Encontrarás ComfyUI-GGUF del usuario city96 en GitHub. Instálalo y reinicia ComfyUI.

Este custom node añade los nodos necesarios para cargar modelos GGUF directamente en tu workflow sin cambios complicados.

Paso 2: Descargar un modelo GGUF

Los modelos GGUF para ComfyUI se encuentran principalmente en HuggingFace. Los repositorios más confiables son:

  • city96: Contiene FLUX GGUF y otros modelos optimizados
  • Comfy-Org: Repositorios oficiales de modelos cuantizados

Para FLUX GGUF ComfyUI, los archivos disponibles son:

  • flux1-dev-Q8_0.gguf (~13 GB)
  • flux1-dev-Q5_K_M.gguf (~10 GB)
  • flux1-dev-Q4_K_M.gguf (~7 GB)
  • flux1-dev-Q3_K_M.gguf (~6 GB)

Descarga el que mejor se adapte a tu GPU.

Paso 3: Colocar el archivo en la carpeta correcta

Navega a tu carpeta de ComfyUI y coloca el archivo .gguf en:

ComfyUI/models/unet/

o

ComfyUI/models/diffusion_models/

Ambas rutas funcionan. Si la carpeta no existe, créala manualmente.

Paso 4: Reemplazar el nodo UNETLoader

En tu workflow, donde normalmente usarías UNETLoader para cargar un modelo de difusión, reemplázalo por UnetLoaderGGUF o GGUFModelLoader (el nombre exacto depende de la versión del custom node).

El resto del workflow permanece igual: VAE, CLIP encoders, samplers, todo funciona de la misma manera. No necesitas modificar nada más.

Paso 5: Generar

Ejecuta tu workflow como lo harías normalmente. ComfyUI cargará el modelo GGUF en VRAM y comenzará la generación. Verás que el consumo de memoria es significativamente menor.

📌 A tener en cuenta: Si la primera ejecución falla, comprueba que el nombre del archivo GGUF coincide exactamente con lo que espera el nodo. A veces hay problemas de caracteres especiales en los nombres.

👉 Conclusión rápida: La instalación es plug-and-play: custom node + descarga + carpeta correcta + reemplazar nodo. Listo en 5 minutos.


Modelos GGUF disponibles y dónde descargarlos

FLUX Dev es el modelo más popular en formato GGUF, pero no es el único. La comunidad sigue expandiendo las opciones disponibles.

FLUX GGUF ComfyUI está disponible en múltiples niveles de cuantización en HuggingFace. Busca en el repositorio de city96 o en repositorios comunitarios. Los tamaños varían desde 6 GB (Q3_K_M) hasta 13 GB (Q8_0).

FLUX Schnell también tiene versiones GGUF, aunque es menos común encontrarlas porque el modelo original es más pequeño y ya cabe en GPUs limitadas.

Otros modelos de difusión como Stable Diffusion 3, Wan 2.2 y HunyuanVideo también tienen versiones GGUF disponibles, aunque la comunidad se ha enfocado principalmente en FLUX Dev.

LoRAs en GGUF: Algunos LoRAs también están disponibles en formato GGUF, aunque es menos frecuente. Se cargan de la misma manera que los LoRAs normales en ComfyUI usando LoraLoader.


Rendimiento, calidad y consideraciones prácticas

El rendimiento de GGUF depende de tu hardware y el nivel de cuantización elegido.

En GPU (NVIDIA, AMD, Intel): GGUF funciona bien y la velocidad es comparable a safetensors, aunque ligeramente más lenta en algunos casos dependiendo del nivel Q. La diferencia es imperceptible en la mayoría de flujos.

En CPU: GGUF es totalmente funcional pero significativamente más lento. Una generación que toma 10 segundos en GPU podría tomar 2-3 minutos en CPU. Aun así, es viable si no tienes GPU disponible.

Calidad visual: En Q4_K_M o superior, la calidad es prácticamente indistinguible de safetensors para la mayoría de usuarios. Solo en comparativas directas lado a lado verás diferencias menores en detalles muy finos.

Compatibilidad de componentes: El VAE, CLIP encoders y LoRAs se cargan en sus formatos originales. No necesitas versiones especiales GGUF de estos componentes. Solo el UNet (modelo de difusión) se cuantiza.


Preguntas frecuentes sobre GGUF en ComfyUI

P: ¿Cuánta calidad se pierde con GGUF Q4_K_M vs el modelo original?

R: En imágenes generadas a 1024x1024, la diferencia entre Q4_K_M y FP16 es difícil de percibir a simple vista. En detalles muy finos (texto, texturas complejas) puede haber una ligera reducción. Q5_K_M es prácticamente indistinguible del original. Q3 y Q2 sí tienen pérdida visible.

P: ¿Solo el UNet puede estar en GGUF o también el VAE y los CLIP?

R: El UNet/diffusion model es el que más VRAM ocupa y el que tiene versiones GGUF. El VAE y los text encoders (CLIP, T5) generalmente no se cuantizan con GGUF en ComfyUI — se cargan en sus formatos originales. Sin embargo, T5-XXL FP8 (no exactamente GGUF pero cuantizado) reduce ese encoder de 9GB a 5GB.

P: ¿Puedo usar LoRAs normales (safetensors) con un modelo GGUF?

R: Sí. Los LoRAs se aplican sobre el modelo tras cargarlo y son compatibles independientemente del formato del modelo base. Conecta el LoraLoader entre el GGUFModelLoader y el CLIPTextEncode normalmente.

P: ¿GGUF funciona para todos los modelos o solo para FLUX?

R: Funciona para cualquier modelo que tenga versión GGUF disponible. En 2026 hay GGUF para FLUX Dev/Schnell, muchos checkpoints SDXL, Wan 2.2, HunyuanVideo y otros. Si no hay versión GGUF oficial, se puede crear con llama.cpp, aunque esto requiere más conocimientos técnicos.



Sigue leyendo

Si quieres profundizar en la optimización de modelos de difusión, consulta nuestras guías sobre cuantización avanzada y compresión de text encoders en ComfyUI. Para explorar alternativas a GGUF, descubre cómo usar modelos en formato FP8 y técnicas de destilación de modelos. También te recomendamos leer sobre configuración de samplers y schedulers para maximizar la calidad con modelos comprimidos.


Conclusión: Cuándo usar GGUF en ComfyUI

🏆 Nuestra recomendación

Si tienes una GPU de 8 GB o menos: Usa GGUF Q4_K_M. Es el mejor balance entre tamaño y calidad. Podrás ejecutar FLUX Dev sin problemas.

Si tienes una GPU de 10-12 GB: Prueba GGUF Q5_K_M. La calidad es prácticamente indistinguible del original con ahorros de VRAM significativos.

Si tienes una GPU de 16+ GB: Considera si realmente necesitas GGUF. Safetensors en Q5_K_M o superior podría ser mejor si prefieres máxima calidad sin compromisos.

Si no tienes GPU: GGUF en CPU es viable para experimentación, aunque lento. Considera usar servicios en la nube o actualizar tu hardware.

GGUF es una solución práctica y efectiva para usar modelos grandes en ComfyUI sin requerir hardware de gama alta. La instalación es sencilla, la compatibilidad es excelente y los resultados visuales son más que aceptables en la mayoría de niveles de cuantización. Si tu GPU tiene limitaciones de VRAM, no dudes en probar GGUF con Q4_K_M o Q5_K_M como punto de partida. La comunidad sigue mejorando y expandiendo las opciones disponibles, así que es un buen momento para experimentar.

Preguntas frecuentes

¿Cuánta calidad se pierde con GGUF Q4_K_M vs el modelo original?
En imágenes generadas a 1024x1024, la diferencia entre Q4_K_M y FP16 es difícil de percibir a simple vista. En detalles muy finos (texto, texturas complejas) puede haber una ligera reducción. Q5_K_M es prácticamente indistinguible del original. Q3 y Q2 sí tienen pérdida visible.
¿Solo el UNet puede estar en GGUF o también el VAE y los CLIP?
El UNet/diffusion model es el que más VRAM ocupa y el que tiene versiones GGUF. El VAE y los text encoders (CLIP, T5) generalmente no se cuantizan con GGUF en ComfyUI — se cargan en sus formatos originales. Sin embargo, T5-XXL FP8 (no exactamente GGUF pero cuantizado) reduce ese encoder de 9GB a 5GB.
¿Puedo usar LoRAs normales (safetensors) con un modelo GGUF?
Sí. Los LoRAs se aplican sobre el modelo tras cargarlo y son compatibles independientemente del formato del modelo base. Conecta el LoraLoader entre el GGUFModelLoader y el CLIPTextEncode normalmente.
¿GGUF funciona para todos los modelos o solo para FLUX?
Funciona para cualquier modelo que tenga versión GGUF disponible. En 2026 hay GGUF para FLUX Dev/Schnell, muchos checkpoints SDXL, Wan 2.2, HunyuanVideo y otros. Si no hay versión GGUF oficial, se puede crear con llama.cpp, aunque esto requiere más conocimientos técnicos.
Compartir X LinkedIn

También te puede interesar