Cada artículo de este sitio necesita una imagen destacada y, durante un tiempo, cada imagen destacada fue una pequeña discusión con un modelo de difusión. El encargo suena trivial: una persona reconocible, el autor del sitio, en una escena editorial limpia que encaje con el ambiente del artículo, en 16:9, cientos de veces, con un aspecto reconociblemente consistente. Hicieron falta tres enfoques fallidos antes de que el encargo se cumpliera de verdad, y cada fallo enseñó algo concreto sobre dónde se rompe la generación de imágenes.
Esto es un registro de construcción, no un tutorial. La cuestión no es “usa una LoRA”; es por qué las opciones obviamente más baratas se derrumban justo en el requisito que más importa para un blog editorial: el mismo rostro, artículo tras artículo.
Imágenes destacadas de IA consistentes: TL;DR en 4 puntos
- Un modelo base de texto a imagen te da un desconocido competente que cambia de rostro en cada renderización. Bien para una imagen, inútil para un autor consistente a lo largo de una serie.
- Una referencia facial de una sola foto (imagen a imagen) mantiene el parecido, pero se desvía con nueva iluminación y nuevos ángulos, porque interpola a partir de un único ejemplo.
- Una Flux LoRA entrenada con seis fotos variadas generaliza la identidad y la renderiza en cualquier escena a partir de una palabra de activación. Eso fue lo que finalmente funcionó.
- La lección mayor no tiene que ver con la identidad en absoluto: las imágenes destacadas deben transmitir un ambiente, no ilustrar literalmente el artículo. En el momento en que un prompt pide una pantalla de portátil, el modelo produce pseudotexto inquietante. Deja de pedirlo.
Glosario: difusión, LoRA, palabra de activación, imagen a imagen
Unos pocos términos cargan con toda la historia.
- Modelo de difusión - la clase de generadores de imágenes (Flux, Imagen, Stable Diffusion) que parte del ruido y lo elimina hacia una imagen que coincide con el prompt.
- Texto a imagen - generación solo a partir de un prompt, sin imagen de entrada. Máxima libertad, control de identidad nulo.
- Imagen a imagen - generación condicionada por una imagen de entrada, usada aquí para llevar un rostro de una foto de referencia a una nueva escena.
- LoRA (low-rank adaptation) - un pequeño añadido entrenado a un modelo base que le enseña un concepto (aquí, un rostro específico) sin reentrenar el modelo entero. Se invoca con una palabra de activación.
- Palabra de activación - un token poco común (el nuestro es
MRZSZ) colocado al inicio del prompt para activar la identidad aprendida por la LoRA. - Proporción - el espacio de la imagen destacada es 16:9, así que cada imagen se genera en esa proporción en lugar de recortarse de un cuadrado.
Primer enfoque que falló: el texto a imagen te da un desconocido
El primer instinto es el más barato: describe la escena y deja que un modelo de texto a imagen la renderice. Google Imagen y Flux base hacen esto bien al nivel de una sola imagen. Un hombre en un escritorio con luz cálida, poca profundidad de campo, se ve profesional y limpio.
Falla en el instante en que generas la segunda. El rostro es distinto. No estilísticamente, sino estructuralmente: una persona diferente. En un blog donde el mismo autor debe anclar la identidad visual de artículo en artículo, una galería de desconocidos competentes es peor que no tener personas en absoluto, porque la inconsistencia se lee como descuido. El texto a imagen no tiene mecanismo para mantener una identidad que nunca se le dio. Este enfoque sigue siendo útil, pero solo para imágenes destacadas que no necesitan persona alguna: un bodegón abstracto, una macrofotografía técnica. Para esas, una llamada de texto a imagen es la herramienta correcta y no hace falta nada más.
El requisito que lo mató nunca fue “una buena imagen”. Fue “la misma persona, doscientas veces”.
Segundo enfoque que falló: una referencia facial se desvía
El siguiente paso obvio es imagen a imagen con una foto de referencia. Los modelos de imagen multimodales modernos (el modo de imagen de Gemini entre ellos) toman una foto del sujeto y un prompt de escena, y generan la nueva escena mientras intentan conservar el rostro. Esto es una mejora real: el parecido está, a grandes rasgos, presente.
Se desvía. Con un solo fotograma de referencia, el modelo interpola a partir de un único ejemplo, así que a medida que el prompt aleja la iluminación, el ángulo o la distancia de ese fotograma, el rostro se escurre en silencio. La luz lateral cálida remodela sutilmente la mandíbula; un ángulo de tres cuartos suaviza rasgos que la referencia nunca mostró. Cada imagen individual se ve bien. Una al lado de la otra a lo largo de una serie, la persona no es del todo la misma persona, y el casi-acierto inquietante distrae más de lo que distraería una diferencia honesta. Acabas peleando con la imagen de referencia en cada generación, ajustando valores de intensidad para cambiar parecido por libertad de escena, y nunca ganando del todo ninguno de los dos.
La lección: un ejemplo conserva un parecido; no generaliza una identidad.
Tercer enfoque que falló: una LoRA que renderiza pantallas
Entrenar una LoRA dedicada resolvió el problema de la identidad de forma limpia. El modelo, mariusz-face-lora en Replicate, se entrenó el 2026-05-24 con seis fotos reales elegidas por su variedad de ángulo, luz y expresión con fondos limpios, e invocado con la palabra de activación MRZSZ al inicio de cada prompt. Seis fotos variadas generalizan el rostro mucho mejor que un conjunto mayor y monótono, porque es la variedad lo que le enseña al modelo la identidad, y no una sola sala.
Resuelta la identidad, apareció el tercer fallo, y no tenía nada que ver con rostros. Los primeros prompts intentaban ilustrar cada artículo literalmente: el autor en un portátil que muestra un panel de seguridad, una pantalla llena de código, un gráfico en un monitor. Flux renderizó a la persona a la perfección y la pantalla como una alucinación. Los modelos de difusión no pueden producir contenido de pantalla coherente; lo que sale es pseudotexto con forma de glifos y gráficos con geometría imposible, y el ojo lo capta al instante. Ninguna ingeniería de prompts arregla esto, porque el modelo no tiene noción de una interfaz legible; solo sabe cómo se ven las pantallas como textura.
Así que el instinto de ilustración literal fue la tercera cosa que abandonar.
Lo que de verdad funcionó: identidad de una LoRA, escenas construidas sobre el ambiente
La fórmula que funciona tiene dos mitades. La identidad viene de la LoRA: palabra de activación primero, 16:9, una salida por llamada, ninguna imagen de referencia que gestionar. Las escenas se construyen sobre el ambiente, no sobre palabras clave literales. Un artículo de seguridad no recibe un panel de seguridad; recibe un retrato de escritorio tranquilo y analítico con luz cálida y enfocada. Un artículo de rendimiento recibe una atmósfera distinta, no una puntuación Lighthouse en una pantalla. Los accesorios se eligen según lo que el modelo puede renderizar de forma fiable: un portátil cerrado, un cuaderno, una taza de café, un bolígrafo. Pantallas abiertas, teléfonos que muestran aplicaciones, cualquier cosa con texto en una superficie quedan fuera del encuadre.
Esto también hizo el pipeline programático. Los artículos se agrupan en clústeres (ai, security, performance, headless, plugins, seo, tutorial, strategy), cada clúster mapeado a una plantilla de escena de ambiente, y un script de relleno puede generar una imagen destacada consistente para cualquier artículo a partir de su clúster y de la palabra de activación. La identidad es constante por construcción; el ambiente varía por tema; nada en el encuadre le pide al modelo algo que no puede hacer. Más notas de construcción de este sitio están en el blog de wppoland.
Cómo seis fotos se convierten en una identidad estable
La parte sorprendente del entrenamiento fue lo pocas fotos que hicieron falta, y cuánto importó más la selección que la cantidad. Seis imágenes, elegidas de modo que ningún par compartiera el mismo ángulo, iluminación o expresión, y todas con fondos despejados. La variedad es la verdadera señal de aprendizaje: le dice al modelo qué rasgos son la persona y cuáles son accidentales a una sola foto. Un conjunto de doce retratos casi idénticos le habría enseñado menos al modelo, porque no habría tenido forma de separar la identidad de la iluminación de aquel único montaje, y el rostro se ataría a una sola sala.
Dos decisiones menores tuvieron peso. La palabra de activación MRZSZ deliberadamente no es una palabra real en ninguno de los seis idiomas del blog; un token poco común evita colisionar con vocabulario que el modelo base ya asocia con otros conceptos, así que activar la identidad no arrastra asociaciones no relacionadas. Y los fondos limpios en las fotos de entrenamiento evitan que la LoRA aprenda un escenario junto con el rostro, lo que libera al prompt para colocar a la misma persona en cualquier escena después. Nada de esto es exótico. Es la diferencia entre una LoRA que generaliza y una que memoriza.
La configuración de dos pipelines: una LoRA y un recurso alternativo
La LoRA no jubiló a las otras herramientas; ocupó su lugar propio junto a ellas. El sitio mantiene dos rutas de generación porque no toda imagen destacada necesita un rostro. Cuando el autor debe aparecer, la Flux LoRA de Replicate renderiza la identidad en una escena de ambiente. Cuando el artículo pide una imagen abstracta o técnica sin persona alguna (un bodegón, una macrofotografía de hardware), una simple llamada de texto a imagen mediante Imagen es la herramienta más barata y libre, a unos pocos céntimos por imagen y sin referencia que gestionar. También hay una ruta de imagen a imagen con referencia facial, conservada para el caso poco frecuente en que una foto real específica, y no la identidad generalizada, es el punto de partida correcto.
El principio detrás de mantener las tres es que cada una resuelve una forma distinta de problema, y forzar a una sola herramienta a cubrirlas todas fue lo que produjo los fallos anteriores. El árbol de decisión es corto: si se necesita una persona y la consistencia importa, usa la LoRA; sin persona, usa texto a imagen; un fotograma real específico, usa imagen a imagen. Encaminar la petición a la ruta correcta es la mayor parte de la calidad.
Cuándo no merece la pena una LoRA
El contrapeso honesto: entrenar una LoRA facial es exagerado para volumen bajo. Si necesitas un puñado de imágenes al año, las herramientas de referencia facial por imagen son más simples, no requieren entrenamiento, y la desviación a lo largo de tres o cuatro imágenes es tolerable. La LoRA solo justifica el coste de su entrenamiento cuando se cumplen dos condiciones a la vez: volumen suficiente para que la gestión de referencias por imagen se vuelva una pesadez, y una necesidad real de una identidad consistente a lo largo de una serie. Un blog editorial con cientos de artículos y un único rostro de autor cumple ambas. Una página de aterrizaje con tres ilustraciones no.
La lección general sobrevive a las herramientas concretas. Cada enfoque fallido falló en una capa distinta: el texto a imagen en la identidad, la imagen a imagen en la generalización, la primera LoRA en los límites de lo que la difusión puede dibujar. Elegir la herramienta correcta significó nombrar en qué capa vivía realmente el requisito. El requisito nunca fue “haz una imagen bonita”. Fue “la misma persona, en una escena creíble, doscientas veces”, y solo el último enfoque se construyó para esa frase.


