Hvert blogginnlegg på dette nettstedet trenger et helbilde, og en stund var hvert helbilde en liten krangel med en diffusjonsmodell. Oppdraget høres trivielt ut: én gjenkjennelig person, nettstedets forfatter, i en ren redaksjonell scene som matcher artikkelens stemning, 16:9, hundrevis av ganger, i et gjenkjennelig konsistent uttrykk. Det tok tre mislykkede tilnærminger før oppdraget faktisk ble innfridd, og hver feil lærte noe konkret om hvor bildegenerering bryter sammen.
Dette er en byggelogg, ikke en veiledning. Poenget er ikke “bruk en LoRA”; det er hvorfor de åpenbart billigere alternativene kollapser nettopp ved kravet som betyr mest for en redaksjonell blogg: samme ansikt, innlegg etter innlegg.
Konsistente AI-helbilder: TL;DR i 4 punkter
- En grunnleggende tekst-til-bilde-modell gir deg en kompetent fremmed som endrer ansikt for hver rendering. Greit for ett bilde, ubrukelig for en konsistent forfatter over en serie.
- En ansiktsreferanse fra ett enkelt foto (bilde-til-bilde) beholder likheten, men drifter under nytt lys og nye vinkler, fordi den interpolerer fra ett eksempel.
- En Flux-LoRA trent på seks varierte bilder generaliserer identiteten og rendrer den inn i enhver scene fra et triggerord. Det var det som til slutt holdt.
- Den større lærdommen handler ikke om identitet i det hele tatt: helbilder må formidle stemning, ikke bokstavelig illustrere artikkelen. I det øyeblikket en prompt ber om en laptop-skjerm, produserer modellen uhyggelig pseudotekst. Slutt å spørre.
Ordliste: diffusjon, LoRA, triggerord, bilde-til-bilde
Noen få begreper bærer hele historien.
- Diffusjonsmodell - klassen av bildegeneratorer (Flux, Imagen, Stable Diffusion) som starter fra støy og avstøyer mot et bilde som matcher prompten.
- Tekst-til-bilde - generering fra en prompt alene, uten inngangsbilde. Maksimal frihet, null identitetskontroll.
- Bilde-til-bilde - generering betinget av et inngangsbilde, brukt her for å bære et ansikt fra et referansefoto inn i en ny scene.
- LoRA (low-rank adaptation) - et lite trent tillegg til en grunnmodell som lærer den ett konsept (her et bestemt ansikt) uten å trene opp hele modellen på nytt. Kalles opp med et triggerord.
- Triggerord - et sjeldent token (vårt er
MRZSZ) plassert i starten av prompten for å aktivere identiteten LoRA-en har lært. - Bildeforhold - helbilde-slotten er 16:9, så hvert bilde genereres i det forholdet i stedet for å beskjæres fra en firkant.
Første tilnærming som feilet: tekst-til-bilde gir deg en fremmed
Det første instinktet er det billigste: beskriv scenen, la en tekst-til-bilde-modell rendre den. Google Imagen og Flux-grunnmodellen gjør begge dette godt på nivå med ett enkelt bilde. En mann ved et skrivebord i varmt lys, grunn dybdeskarphet, ser profesjonelt og rent ut.
Det feiler i det øyeblikket du genererer det andre. Ansiktet er annerledes. Ikke stilistisk, men strukturelt: en annen person. Over en blogg der samme forfatter skal forankre den visuelle identiteten fra innlegg til innlegg, er et galleri av kompetente fremmede verre enn ingen personer i det hele tatt, fordi inkonsekvensen leses som slurv. Tekst-til-bilde har ingen mekanisme for å holde en identitet den aldri ble gitt. Denne tilnærmingen er fortsatt nyttig, men bare for helbilder som ikke trenger noen person i det hele tatt: et abstrakt stilleben, et teknisk makrobilde. For dem er et tekst-til-bilde-kall det rette verktøyet, og mer trengs ikke.
Kravet som drepte den, var aldri “et godt bilde”. Det var “samme person, to hundre ganger”.
Andre tilnærming som feilet: en ansiktsreferanse drifter
Det åpenbare neste steget er bilde-til-bilde med et referansefoto. Moderne multimodale bildemodeller (Geminis bildemodus blant dem) tar et foto av motivet og en scene-prompt, og genererer den nye scenen mens de prøver å bevare ansiktet. Dette er en reell forbedring: likheten er stort sett der.
Den drifter. Med én referanseramme interpolerer modellen fra ett enkelt eksempel, så når prompten skyver lyset, vinkelen eller avstanden bort fra den rammen, glir ansiktet stille. Varmt sidelys omformer kjeven subtilt; en trekvartvinkel mykner trekk referansen aldri viste. Hvert enkelt bilde ser fint ut. Side om side over en serie er ikke personen helt samme person, og den uhyggelige nesten-bommen distraherer mer enn en ærlig forskjell ville. Du ender opp med å kjempe mot referansebildet ved hver generering, justere styrkeverdier for å bytte likhet mot scenefrihet, og aldri helt vinne noen av delene.
Lærdommen: ett eksempel bevarer en likhet; det generaliserer ikke en identitet.
Tredje tilnærming som feilet: en LoRA som rendrer skjermer
Å trene en dedikert LoRA løste identitetsproblemet rent. Modellen, mariusz-face-lora på Replicate, ble trent 2026-05-24 på seks ekte bilder valgt for variasjon i vinkel, lys og uttrykk med rene bakgrunner, og kalt opp med triggerordet MRZSZ i starten av hver prompt. Seks varierte bilder generaliserer ansiktet langt bedre enn et større, monotont sett, fordi det er variasjonen som lærer modellen identiteten, ikke ett rom.
Med identiteten løst dukket den tredje feilen opp, og den hadde ingenting med ansikter å gjøre. De tidlige promptene prøvde å illustrere hver artikkel bokstavelig: forfatteren ved en laptop som viser et sikkerhetsdashbord, en skjerm full av kode, et diagram på en skjerm. Flux rendret personen perfekt og skjermen som en hallusinasjon. Diffusjonsmodeller kan ikke produsere sammenhengende skjerminnhold; det som kommer ut er glyfformet pseudotekst og diagrammer med umulig geometri, og øyet fanger det øyeblikkelig. Ingen prompt-engineering fikser dette, fordi modellen ikke har noe konsept om lesbar UI; den vet bare hvordan skjermer ser ut som tekstur.
Så instinktet om bokstavelig illustrasjon var den tredje tingen å gi opp.
Hva som faktisk fungerte: identitet fra en LoRA, scener bygd på stemning
Den fungerende formelen har to halvdeler. Identiteten kommer fra LoRA-en: triggerord først, 16:9, én utgang per kall, intet referansebilde å håndtere. Scenene bygges på stemning, ikke bokstavelige nøkkelord. En sikkerhetsartikkel får ikke et sikkerhetsdashbord; den får et rolig, analytisk skrivebordsportrett i varmt, fokusert lys. En ytelsesartikkel får en annen atmosfære, ikke en Lighthouse-score på en skjerm. Rekvisittene velges etter hva modellen kan rendre pålitelig: en lukket laptop, en notatbok, en kaffekopp, en penn. Åpne skjermer, telefoner som viser apper, alt med tekst på en overflate holdes utenfor bildet.
Dette gjorde også pipelinen programmatisk. Artikler grupperes i klynger (ai, security, performance, headless, plugins, seo, tutorial, strategy), hver klynge knyttes til en stemningsscene-mal, og et backfill-skript kan generere et konsistent helbilde for ethvert innlegg fra klyngen og triggerordet. Identiteten er konstant av konstruksjon; stemningen varierer med tema; ingenting i bildet ber modellen om å gjøre noe den ikke kan. Flere byggenotater fra dette nettstedet finnes på wppoland-bloggen.
Hvordan seks bilder blir en stabil identitet
Det overraskende ved treningskjøringen var hvor få bilder det tok, og hvor mye mer utvalget betydde enn antallet. Seks bilder, valgt slik at ingen to delte samme vinkel, lys eller uttrykk, alle med ryddige bakgrunner. Variasjonen er det faktiske læringssignalet: den forteller modellen hvilke trekk som er personen og hvilke som er tilfeldige for ett foto. Et sett på tolv nesten identiske portretter ville lært modellen mindre, fordi den ikke ville hatt noen måte å skille identitet fra lyssettingen i det ene oppsettet, og ansiktet ville bundet seg til ett rom.
To mindre valg veide tungt. Triggerordet MRZSZ er bevisst ikke et ekte ord i noen av bloggens seks språk; et sjeldent token unngår å kollidere med vokabular grunnmodellen allerede knytter til andre konsepter, slik at aktivering av identiteten ikke drar inn urelaterte assosiasjoner. Og rene bakgrunner i treningsbildene holder LoRA-en fra å lære en setting sammen med ansiktet, noe som frigjør prompten til å plassere samme person i enhver scene etterpå. Ingenting av dette er eksotisk. Det er forskjellen mellom en LoRA som generaliserer og en som memorerer.
Oppsettet med to pipeliner: en LoRA og en reserve
LoRA-en pensjonerte ikke de andre verktøyene; den tok sin rette plass ved siden av dem. Nettstedet holder to genereringsveier fordi ikke hvert helbilde trenger et ansikt. Når forfatteren skal opptre, rendrer Replicate-Flux-LoRA-en identiteten inn i en stemningsscene. Når artikkelen krever et abstrakt eller teknisk bilde uten noen person i det hele tatt (et stilleben, et makrobilde av maskinvare), er et vanlig tekst-til-bilde-kall via Imagen det billigere, friere verktøyet, til noen få cent per bilde og uten en referanse å håndtere. Det finnes også en bilde-til-bilde-ansiktsreferansevei beholdt for det sjeldne tilfellet der et bestemt ekte foto, ikke den generaliserte identiteten, er det rette utgangspunktet.
Prinsippet bak å beholde alle tre er at hver løser en annen form for problem, og å tvinge ett verktøy til å dekke dem alle var det som produserte de tidligere feilene. Beslutningstreet er kort: person nødvendig og konsistens viktig, bruk LoRA-en; ingen person, bruk tekst-til-bilde; én bestemt ekte ramme, bruk bilde-til-bilde. Å rute forespørselen til riktig vei er størstedelen av kvaliteten.
Når en LoRA ikke er verdt det
Den ærlige motvekten: å trene en ansikts-LoRA er overkill for lavt volum. Trenger du en håndfull bilder i året, er verktøyene med ansiktsreferanse per bilde enklere, krever ingen treningskjøring, og driften over tre eller fire bilder er til å leve med. LoRA-en tjener inn treningskostnaden bare når to betingelser holder samtidig: nok volum til at referansehåndtering per bilde blir et slit, og et reelt behov for én konsistent identitet over en serie. En redaksjonell blogg med hundrevis av innlegg og ett enkelt forfatteransikt oppfyller begge. En landingsside med tre illustrasjoner gjør det ikke.
Den generelle lærdommen overlever de spesifikke verktøyene. Hver mislykket tilnærming feilet på et annet lag: tekst-til-bilde på identitet, bilde-til-bilde på generalisering, den første LoRA-en på grensene for hva diffusjon kan tegne. Å velge riktig verktøy betydde å navngi hvilket lag kravet faktisk levde i. Kravet var aldri “lag et fint bilde”. Det var “samme person, i en troverdig scene, to hundre ganger”, og bare den siste tilnærmingen var bygd for den setningen.



