Escribir un prompt en ComfyUI no es como hablar con ChatGPT. Aquí navegas por un espacio latente de miles de millones de dimensiones, tomando decisiones técnicas en cada palabra. El Prompt Engineering en ComfyUI combina lingüística, matemáticas y lógica de nodos. No es metáfora. Es una disciplina concreta, medible, con resultados que puedes reproducir.
Si quieres dejar de “tirar los dados” y empezar a “esculpir” tus imágenes, esta guía es para ti.
🧠 Teoría del Lenguaje en Difusión: El Viaje del Token
Cuando escribes “un gato azul”, el codificador de texto (CLIP) no ve esas palabras. Las deconstruye en tokens. Cada token es un número. Ese número apunta a un lugar específico en el mapa del conocimiento del modelo.
🧠 ¿Qué es el CLIP?
CLIP (Contrastive Language-Image Pre-training) conecta el texto con la imagen.
- En Stable Diffusion 1.5, usas un solo CLIP (OpenAI CLIP-L/14).
- En Stable Diffusion XL (SDXL), usas dos: CLIP-L (para detalles) y CLIP-G (para el concepto global). ComfyUI te deja enviar prompts distintos a cada uno mediante el nodo
CLIP Text Encode (SDXL). Eso solo ya justifica el cambio desde A1111. - En FLUX.1, la arquitectura gira hacia un modelo T5. Entiende frases naturales y relaciones espaciales complejas con una precisión que CLIP no alcanza.
🧠 Sintaxis de Precisión: ComfyUI vs. Automatic1111
Esta es la primera barrera para los que migran. Usa la sintaxis equivocada y el modelo ignorará tus órdenes sin avisar.
| Concepto | Sintaxis Automatic1111 | Sintaxis ComfyUI (Standard) |
|---|---|---|
| Énfasis (1.1x) | (palabra) | (palabra:1.1) |
| Mucho énfasis (1.21x) | ((palabra)) | (palabra:1.21) |
| Atenuación (0.9x) | [palabra] | (palabra:0.9) |
| Peso exacto | (palabra:1.5) | (palabra:1.5) |
🧠 La Regla del Paréntesis en ComfyUI
En ComfyUI, para dar peso usa siempre el formato (palabra:valor). Si escribes solo (palabra), ComfyUI aplica un peso de 1.1 por defecto. Sé explícito. La consistencia entre ejecuciones depende de ello, y cuando estés depurando un resultado, querrás saber exactamente qué peso pusiste.
🧠 Embeddings (Textual Inversion): El Poder de la Síntesis
Los embeddings son atajos semánticos. En lugar de escribir 50 palabras para describir un estilo artístico complejo, usas un archivo que condensa todo eso en un solo concepto. Un token. Una instrucción.
🧠 Cómo usarlos correctamente
Para activar un embedding que tienes en tu carpeta models/embeddings, escríbelo así en el nodo de texto:
embedding:nombre_del_archivo
El uso más eficaz de los embeddings está en el nodo de prompt negativo. Embeddings como EasyNegative o BadDream eliminan artefactos, manos deformes o estilos borrosos sin llenar tu prompt de “trash words”. Un solo token hace el trabajo de veinte. Pruébalo antes de escribir tu próxima lista de negativos a mano.
🧠 LoRAs: Más allá del Texto
En A1111 pones <lora:nombre:1> dentro del texto. En ComfyUI el LoRA es un nodo físico. Esa diferencia no es cosmética: cambia cuándo y cómo el modelo absorbe ese conocimiento.
🧠 El Flujo de Trabajo Profesional con LoRAs
- Cargas el LoRA con un nodo
LoraLoader. - El nodo recibe el Modelo y el CLIP.
- El nodo inyecta el conocimiento del LoRA en el CLIP.
- Conectas el CLIP de salida al nodo
CLIP Text Encode.
Con esta estructura, el modelo asimila los conceptos del LoRA —un personaje específico, un estilo de dibujo— antes de procesar el texto. No después. Eso importa. Si el LoRA tiene una trigger word, escríbela en el prompt para activar esa zona de la memoria del modelo; sin ella, el LoRA carga pero no se expresa del todo.
🧠 Técnicas Maestras: Prompting por Capas
Esta es la razón real por la que usamos ComfyUI. No estás limitado a una sola caja de texto.
🧠 1. Condicionamiento Combinado (Conditioning Combine)
Escribe tres prompts separados:
- “Un bosque encantado por la noche”
- “Luciérnagas brillantes flotando”
- “Niebla misteriosa en el suelo”
Combínalos con nodos Conditioning(Combine). El resultado supera con claridad a escribirlo todo junto en una sola cadena: el modelo recibe tres conceptos separados, sin que compitan por el mismo espacio semántico. Cuando los mezclas en un solo prompt, el modelo los pondera juntos y pierde matiz. Separados, cada concepto llega limpio.
🧠 2. Control Espacial (Conditioning Set Area)
¿Quieres un cielo de fuego arriba y un mar de cristal abajo?
Con el nodo ConditioningSetArea defines coordenadas (X, Y) y dimensiones (Ancho, Alto).
- Prompt A -> Set Area (0, 0, 1024, 512) -> Cielo.
- Prompt B -> Set Area (0, 512, 1024, 512) -> Mar.
El modelo genera ambos conceptos en sus zonas sin mezclarlos. Sin máscaras. Sin inpainting. Solo geometría de condicionamiento.
🧠 Prompt Scheduling: El factor tiempo
ComfyUI hace que el prompt cambie paso a paso. No entre imágenes: dentro de una sola generación.
Imagina que quieres que una estatua de piedra se convierta lentamente en una persona de carne y hueso:
- Del paso 0 al 10: “Estatua de mármol frío”.
- Del paso 11 al 20: “Estatua de mármol convirtiéndose en piel”.
- Del paso 21 al 30: “Persona real, piel cálida”.
Esto se logra con nodos como ConditioningSetTimestepRange. Es la técnica fundamental para morphings y transiciones en vídeo. Sin ella, cualquier intento de transición suave entre conceptos acaba siendo una mezcla borrosa a mitad de camino.
🧠 Guía de Estilos y Tokens Recomendados
Descarta los adjetivos vacíos como beautiful o stunning. El modelo los ha visto en millones de imágenes mediocres y les da poco peso. Usa tokens descriptivos que apunten a algo concreto:
- Iluminación:
rim lighting,cinematic lighting,volumetric fog,golden hour. - Cámara:
macro lens,wide angle,low angle shot,85mm portrait. - Textura:
subsurface scattering(para piel realista),highly detailed,intricate patterns. - Arte:
chiaroscuro,minimalism,baroque style,concept art by [Artist Name].
🧠 FAQ de Prompting Avanzado
🧠 ¿Cuántos tokens puedo usar?
CLIP tiene un límite nativo de 75 tokens. ComfyUI puede concatenar múltiples bloques de 75, pero el modelo suele ignorar lo que escribas después del token 150-200. Más allá de ese punto, añadir palabras no suma: solo desplaza hacia abajo lo que ya escribiste. Mantén los prompts quirúrgicos.
🧠 ¿Cómo influye el Negative Prompt en el tiempo de generación?
No influye. En cada paso, el proceso de difusión calcula dos versiones de la imagen —una guiada por el prompt positivo y otra por el negativo— para restarlas. Un prompt negativo de 200 palabras no añade ni un milisegundo al tiempo de generación.
🧠 ¿Cuál es la diferencia entre el prompt CLIP-L y CLIP-G en SDXL?
- CLIP-G: Es el marco general. Pon aquí el sujeto y la escena.
- CLIP-L: Es el detalle. Pon aquí las texturas, la luz y los datos técnicos finos.
Si los tratas igual y escribes lo mismo en ambos, estás desaprovechando la arquitectura dual de SDXL.
🧠 Conclusión
El Prompt Engineering en ComfyUI es un lenguaje de programación creativo. La clave no está solo en qué palabras eliges, sino en cómo estructuras esa petición dentro del flujo de datos. Domina la combinación de capas, áreas y pesos. Deja de ser el usuario que “prueba suerte” y empieza a construir imágenes con la misma lógica con la que un programador construye funciones: con intención, con estructura y con resultados reproducibles.
Para ver estas técnicas aplicadas a la creación de vídeos, no te pierdas nuestra guía avanzada de generación de vídeo en ComfyUI. Si quieres profundizar en cómo los LoRAs modifican el comportamiento del modelo a nivel de prompt, la guía completa de LoRAs en ComfyUI es el siguiente paso.
Siguientes pasos en ComfyUI
Primeros pasos
Preguntas frecuentes
- ¿Por qué la sintaxis de pesos en ComfyUI es diferente a A1111?
- ComfyUI utiliza el formato estándar de la librería Diffusers `(palabra:1.2)`. A1111 usa paréntesis anidados `((palabra))`. El sistema de ComfyUI es matemáticamente más preciso y predecible para el modelo CLIP.
- ¿Cómo afectan los LoRAs al prompt en ComfyUI?
- En ComfyUI, los LoRAs no suelen inyectarse mediante texto (`<lora:name:1>`), sino mediante nodos físicos que modifican el modelo y el CLIP antes de llegar al codificador de texto. Esto ofrece un control mucho más limpio sobre la fuerza del efecto.
- ¿Qué es el 'Conditioning Set Area'?
- Es una técnica avanzada de ComfyUI que permite asignar diferentes partes de un prompt a áreas específicas de la imagen (por ejemplo, 'cielo rojo' arriba y 'césped azul' abajo) sin que los colores se mezclen.
- ¿Puedo usar variables en mis prompts?
- Sí, utilizando nodos de la WAS Node Suite o similares, puedes crear estructuras de texto dinámicas que inserten palabras aleatorias o secuenciales en cada generación.