Cada artigo deste site precisa de uma imagem de destaque e, durante algum tempo, cada imagem de destaque era uma pequena discussão com um modelo de difusão. O briefing parece trivial: uma pessoa reconhecível, o autor do site, numa cena editorial limpa que combine com o ambiente do artigo, em 16:9, centenas de vezes, com um aspeto reconhecivelmente consistente. Foram precisas três abordagens falhadas antes de o briefing ser realmente cumprido, e cada falha ensinou algo específico sobre onde a geração de imagens se quebra.
Este é um registo de construção, não um tutorial. A questão não é “use uma LoRA”; é porque é que as opções obviamente mais baratas colapsam exatamente no requisito que mais importa para um blogue editorial: o mesmo rosto, artigo após artigo.
Imagens de destaque de IA consistentes: TL;DR em 4 pontos
- Um modelo base de texto para imagem dá-lhe um estranho competente que muda de rosto a cada renderização. Bom para uma imagem, inútil para um autor consistente ao longo de uma série.
- Uma referência de rosto de uma única fotografia (imagem para imagem) mantém a semelhança, mas desvia-se com nova iluminação e novos ângulos, porque está a interpolar a partir de um único exemplo.
- Uma Flux LoRA treinada em seis fotografias variadas generaliza a identidade e renderiza-a em qualquer cena a partir de uma palavra de ativação. Foi isto que finalmente resultou.
- A lição maior nada tem a ver com identidade: as imagens de destaque devem transmitir um ambiente, não ilustrar literalmente o artigo. No momento em que um prompt pede um ecrã de portátil, o modelo produz pseudotexto estranho. Deixe de pedir.
Glossário: difusão, LoRA, palavra de ativação, imagem para imagem
Alguns termos carregam toda a história.
- Modelo de difusão - a classe de geradores de imagem (Flux, Imagen, Stable Diffusion) que parte de ruído e o remove em direção a uma imagem que corresponde ao prompt.
- Texto para imagem - geração apenas a partir de um prompt, sem imagem de entrada. Liberdade máxima, controlo de identidade nulo.
- Imagem para imagem - geração condicionada por uma imagem de entrada, usada aqui para transportar um rosto de uma fotografia de referência para uma nova cena.
- LoRA (low-rank adaptation) - um pequeno acréscimo treinado a um modelo base que lhe ensina um conceito (aqui, um rosto específico) sem treinar de novo o modelo inteiro. Invocada com uma palavra de ativação.
- Palavra de ativação - um token raro (o nosso é
MRZSZ) colocado no início do prompt para ativar a identidade aprendida pela LoRA. - Proporção - o espaço da imagem de destaque é 16:9, por isso cada imagem é gerada nessa proporção em vez de ser recortada a partir de um quadrado.
Primeira abordagem que falhou: o texto para imagem dá-lhe um estranho
O primeiro instinto é o mais barato: descrever a cena e deixar um modelo de texto para imagem renderizá-la. O Google Imagen e o Flux base fazem isto bem ao nível de uma única imagem. Um homem a uma secretária com luz quente, profundidade de campo reduzida, parece profissional e limpo.
Falha no instante em que se gera a segunda. O rosto é diferente. Não estilisticamente, mas estruturalmente: uma pessoa diferente. Num blogue onde o mesmo autor deve ancorar a identidade visual de artigo para artigo, uma galeria de estranhos competentes é pior do que não ter pessoa nenhuma, porque a inconsistência lê-se como descuido. O texto para imagem não tem mecanismo para manter uma identidade que nunca lhe foi dada. Esta abordagem continua útil, mas apenas para imagens de destaque que não precisam de pessoa alguma: uma natureza-morta abstrata, uma macrofotografia técnica. Para essas, uma chamada de texto para imagem é a ferramenta certa e nada mais é preciso.
O requisito que a matou nunca foi “uma boa imagem”. Foi “a mesma pessoa, duzentas vezes”.
Segunda abordagem que falhou: uma referência de rosto desvia-se
O passo seguinte óbvio é a imagem para imagem com uma fotografia de referência. Os modelos de imagem multimodais modernos (o modo de imagem do Gemini entre eles) recebem uma fotografia do sujeito e um prompt de cena, e geram a nova cena tentando preservar o rosto. Isto é uma melhoria real: a semelhança está, em traços gerais, presente.
Desvia-se. Com um único fotograma de referência, o modelo está a interpolar a partir de um único exemplo, por isso, à medida que o prompt afasta a iluminação, o ângulo ou a distância desse fotograma, o rosto escorrega em silêncio. A luz lateral quente remodela subtilmente o maxilar; um ângulo de três quartos suaviza traços que a referência nunca mostrou. Cada imagem individual parece bem. Lado a lado ao longo de uma série, a pessoa não é bem a mesma pessoa, e o quase-acerto estranho distrai mais do que uma diferença honesta distrairia. Acaba por lutar contra a imagem de referência em cada geração, a afinar valores de intensidade para trocar semelhança por liberdade de cena, e nunca a vencer plenamente nenhuma das duas.
A lição: um exemplo preserva uma semelhança; não generaliza uma identidade.
Terceira abordagem que falhou: uma LoRA que renderiza ecrãs
Treinar uma LoRA dedicada resolveu o problema da identidade de forma limpa. O modelo, mariusz-face-lora no Replicate, foi treinado a 2026-05-24 em seis fotografias reais escolhidas pela variedade de ângulo, luz e expressão com fundos limpos, e invocado com a palavra de ativação MRZSZ no início de cada prompt. Seis fotografias variadas generalizam o rosto muito melhor do que um conjunto maior e monótono, porque é a variedade que ensina ao modelo a identidade, e não uma única sala.
Resolvida a identidade, surgiu a terceira falha, e nada tinha a ver com rostos. Os primeiros prompts tentaram ilustrar cada artigo literalmente: o autor a um portátil a mostrar um painel de segurança, um ecrã cheio de código, um gráfico num monitor. O Flux renderizou a pessoa na perfeição e o ecrã como uma alucinação. Os modelos de difusão não conseguem produzir conteúdo de ecrã coerente; o que sai é pseudotexto em forma de glifos e gráficos com geometria impossível, e o olho apanha-o instantaneamente. Nenhuma engenharia de prompts corrige isto, porque o modelo não tem noção de interface legível; só sabe como os ecrãs parecem enquanto textura.
Por isso o instinto de ilustração literal foi a terceira coisa a abandonar.
O que de facto funcionou: identidade de uma LoRA, cenas construídas sobre o ambiente
A fórmula que funciona tem duas metades. A identidade vem da LoRA: palavra de ativação primeiro, 16:9, uma saída por chamada, nenhuma imagem de referência para gerir. As cenas constroem-se sobre o ambiente, não sobre palavras-chave literais. Um artigo de segurança não recebe um painel de segurança; recebe um retrato de secretária calmo e analítico em luz quente e focada. Um artigo de desempenho recebe uma atmosfera diferente, não uma pontuação Lighthouse num ecrã. Os adereços são escolhidos pelo que o modelo consegue renderizar de forma fiável: um portátil fechado, um caderno, uma chávena de café, uma caneta. Ecrãs abertos, telemóveis a mostrar aplicações, qualquer coisa com texto numa superfície ficam fora do enquadramento.
Isto também tornou o pipeline programático. Os artigos são agrupados em clusters (ai, security, performance, headless, plugins, seo, tutorial, strategy), cada cluster mapeado para um modelo de cena de ambiente, e um script de preenchimento consegue gerar uma imagem de destaque consistente para qualquer artigo a partir do seu cluster e da palavra de ativação. A identidade é constante por construção; o ambiente varia por tema; nada no enquadramento pede ao modelo algo que ele não consegue fazer. Mais notas de construção deste site estão no blogue da wppoland.
Como seis fotografias se tornam uma identidade estável
A parte surpreendente do treino foi quão poucas fotografias foram precisas, e o quanto a seleção importou mais do que a quantidade. Seis imagens, escolhidas de modo a que nenhumas duas partilhassem o mesmo ângulo, iluminação ou expressão, e todas com fundos sem confusão. A variedade é o verdadeiro sinal de aprendizagem: diz ao modelo que características são a pessoa e quais são acidentais a uma única fotografia. Um conjunto de doze retratos quase idênticos teria ensinado menos ao modelo, porque ele não teria forma de separar a identidade da iluminação daquela única montagem, e o rosto prender-se-ia a uma única sala.
Duas escolhas menores tiveram peso. A palavra de ativação MRZSZ não é deliberadamente uma palavra real em nenhuma das seis línguas do blogue; um token raro evita colidir com vocabulário que o modelo base já associa a outros conceitos, por isso ativar a identidade não arrasta associações não relacionadas. E fundos limpos nas fotografias de treino impedem a LoRA de aprender um cenário juntamente com o rosto, o que liberta o prompt para colocar a mesma pessoa em qualquer cena depois. Nada disto é exótico. É a diferença entre uma LoRA que generaliza e uma que memoriza.
A configuração de dois pipelines: uma LoRA e uma alternativa
A LoRA não reformou as outras ferramentas; ocupou o seu lugar próprio ao lado delas. O site mantém dois caminhos de geração porque nem toda a imagem de destaque precisa de um rosto. Quando o autor deve aparecer, a Flux LoRA do Replicate renderiza a identidade numa cena de ambiente. Quando o artigo pede uma imagem abstrata ou técnica sem pessoa nenhuma (uma natureza-morta, uma macrofotografia de hardware), uma simples chamada de texto para imagem através do Imagen é a ferramenta mais barata e mais livre, a alguns cêntimos por imagem e sem referência para gerir. Existe também um caminho de imagem para imagem com referência de rosto, mantido para o caso raro em que uma fotografia real específica, e não a identidade generalizada, é o ponto de partida certo.
O princípio por detrás de manter as três é que cada uma resolve uma forma diferente de problema, e forçar uma só ferramenta a cobri-las todas foi o que produziu as falhas anteriores. A árvore de decisão é curta: se for preciso uma pessoa e a consistência importar, use a LoRA; sem pessoa, use texto para imagem; um fotograma real específico, use imagem para imagem. Encaminhar o pedido para o caminho certo é a maior parte da qualidade.
Quando uma LoRA não vale a pena
O contrapeso honesto: treinar uma LoRA de rosto é exagero para volume baixo. Se precisar de um punhado de imagens por ano, as ferramentas de referência de rosto por imagem são mais simples, não precisam de treino, e o desvio ao longo de três ou quatro imagens é tolerável. A LoRA só justifica o custo do treino quando duas condições se verificam em conjunto: volume suficiente para que a gestão de referências por imagem se torne uma maçada, e uma necessidade real de uma identidade consistente ao longo de uma série. Um blogue editorial com centenas de artigos e um único rosto de autor cumpre ambas. Uma página de destino com três ilustrações não.
A lição geral sobrevive às ferramentas específicas. Cada abordagem falhada falhou numa camada diferente: o texto para imagem na identidade, a imagem para imagem na generalização, a primeira LoRA nos limites do que a difusão consegue desenhar. Escolher a ferramenta certa significou nomear em que camada o requisito realmente vivia. O requisito nunca foi “faça uma imagem bonita”. Foi “a mesma pessoa, numa cena credível, duzentas vezes”, e só a última abordagem foi construída para essa frase.


