Każdy wpis na tej stronie potrzebuje grafiki nagłówkowej, a przez pewien czas każda taka grafika była drobnym sporem z modelem dyfuzyjnym. Brief brzmi banalnie: jedna rozpoznawalna osoba, autor strony, w czystej scenie redakcyjnej, która pasuje do nastroju artykułu, 16:9, setki razy, w rozpoznawalnie spójnym wyglądzie. Trzeba było trzech nieudanych podejść, zanim brief został rzeczywiście spełniony, a każda porażka czegoś konkretnego nauczyła o tym, gdzie generowanie obrazów się rozpada.
To dziennik budowy, a nie poradnik. Sednem nie jest “użyj LoRA”; sednem jest, dlaczego oczywiste tańsze opcje załamują się dokładnie przy wymaganiu, które dla bloga redakcyjnego liczy się najbardziej: ta sama twarz, wpis po wpisie.
Spójne grafiki AI na bloga: TL;DR w 4 punktach
- Podstawowy model text-to-image daje ci kompetentną obcą osobę, która zmienia twarz przy każdym renderze. Dobre do jednego obrazu, bezużyteczne dla spójnego autora w serii.
- Referencja twarzy z jednego zdjęcia (image-to-image) zachowuje podobieństwo, ale dryfuje przy nowym oświetleniu i kątach, bo interpoluje z jednego przykładu.
- LoRA dla Flux wytrenowana na sześciu zróżnicowanych zdjęciach generalizuje tożsamość i renderuje ją w dowolnej scenie ze słowa wyzwalającego. To zadziałało ostatecznie.
- Większa lekcja nie dotyczy wcale tożsamości: grafika musi oddawać nastrój, a nie dosłownie ilustrować artykuł. W momencie, gdy prompt prosi o ekran laptopa, model produkuje nienaturalny pseudotekst. Przestań pytać.
Słowniczek: dyfuzja, LoRA, słowo wyzwalające, image-to-image
Kilka terminów niesie całą historię.
- Model dyfuzyjny - klasa generatorów obrazów (Flux, Imagen, Stable Diffusion), które startują od szumu i odszumiają go w kierunku obrazu pasującego do promptu.
- Text-to-image - generowanie z samego promptu, bez obrazu wejściowego. Maksymalna swoboda, zerowa kontrola nad tożsamością.
- Image-to-image - generowanie warunkowane obrazem wejściowym, użyte tu do przeniesienia twarzy ze zdjęcia referencyjnego do nowej sceny.
- LoRA (low-rank adaptation) - mały wytrenowany dodatek do modelu bazowego, który uczy go jednego konceptu (tutaj konkretnej twarzy) bez przetrenowywania całego modelu. Wywoływany słowem wyzwalającym.
- Słowo wyzwalające - rzadki token (nasz to
MRZSZ) umieszczony na początku promptu, aby aktywować wyuczoną tożsamość LoRA. - Proporcje - slot grafiki to 16:9, więc każdy obraz jest generowany w tej proporcji, a nie przycinany z kwadratu.
Pierwsze nieudane podejście: text-to-image daje obcą osobę
Pierwszy odruch jest najtańszy: opisz scenę, pozwól modelowi text-to-image ją wyrenderować. Google Imagen i bazowy Flux robią to dobrze na poziomie pojedynczego obrazu. Mężczyzna przy biurku w ciepłym świetle, mała głębia ostrości, wygląda profesjonalnie i czysto.
Załamuje się w chwili, gdy generujesz drugi obraz. Twarz jest inna. Nie stylistycznie, lecz strukturalnie: inna osoba. Na blogu, gdzie ten sam autor ma zakotwiczać tożsamość wizualną od wpisu do wpisu, galeria kompetentnych obcych osób jest gorsza niż brak ludzi w ogóle, bo niespójność czyta się jako niedbałość. Text-to-image nie ma mechanizmu utrzymania tożsamości, której nigdy mu nie podano. To podejście wciąż jest przydatne, ale tylko do grafik, które w ogóle nie potrzebują osoby: abstrakcyjna martwa natura, techniczne ujęcie makro. Do tego wywołanie text-to-image jest właściwym narzędziem i nic więcej nie trzeba.
Wymaganie, które je zabiło, nigdy nie brzmiało “dobry obraz”. Brzmiało “ta sama osoba, dwieście razy”.
Drugie nieudane podejście: referencja twarzy dryfuje
Oczywistym kolejnym krokiem jest image-to-image ze zdjęciem referencyjnym. Nowoczesne multimodalne modele obrazów (między innymi tryb obrazów Gemini) biorą zdjęcie osoby i prompt sceny, generując nową scenę przy próbie zachowania twarzy. To realna poprawa: podobieństwo jest z grubsza obecne.
Dryfuje. Z jedną klatką referencyjną model interpoluje z pojedynczego przykładu, więc gdy prompt odsuwa oświetlenie, kąt lub odległość od tej klatki, twarz cicho się przesuwa. Ciepłe światło z boku subtelnie przemodelowuje żuchwę; ujęcie pod kątem trzech czwartych zmiękcza rysy, których referencja nigdy nie pokazała. Każdy pojedynczy obraz wygląda dobrze. Obok siebie w serii to nie do końca ta sama osoba, a nienaturalne ledwie-chybienie rozprasza bardziej niż uczciwa różnica. Kończysz, walcząc z obrazem referencyjnym przy każdej generacji, dostrajając wartości siły, by handlować podobieństwem za swobodę sceny, i nigdy w pełni nie wygrywasz żadnego z dwóch.
Lekcja: jeden przykład zachowuje podobieństwo; nie generalizuje tożsamości.
Trzecie nieudane podejście: LoRA, która renderuje ekrany
Trening dedykowanej LoRA czysto rozwiązał problem tożsamości. Model, mariusz-face-lora na Replicate, został wytrenowany 2026-05-24 na sześciu prawdziwych zdjęciach dobranych pod kątem różnorodności kąta, światła i mimiki, z czystymi tłami, i wywoływany słowem wyzwalającym MRZSZ na początku każdego promptu. Sześć zróżnicowanych zdjęć generalizuje twarz znacznie lepiej niż większy, monotonny zestaw, bo to różnorodność uczy model tożsamości, a nie jedno pomieszczenie.
Z rozwiązaną tożsamością pojawiła się trzecia porażka i nie miała nic wspólnego z twarzami. Wczesne prompty próbowały dosłownie ilustrować każdy artykuł: autor przy laptopie z dashboardem bezpieczeństwa, ekran pełen kodu, wykres na monitorze. Flux renderował osobę bezbłędnie, a ekran jako halucynację. Modele dyfuzyjne nie potrafią wyprodukować spójnej zawartości ekranu; wychodzi pseudotekst w kształcie glifów i wykresy o niemożliwej geometrii, a oko łapie to natychmiast. Żadna inżynieria promptów tego nie naprawi, bo model nie ma pojęcia o czytelnym UI; zna tylko, jak ekrany wyglądają jako tekstura.
Tak więc odruch dosłownej ilustracji był trzecią rzeczą do porzucenia.
Co rzeczywiście zadziałało: tożsamość z LoRA, sceny budowane na nastroju
Działająca formuła ma dwie połowy. Tożsamość pochodzi z LoRA: słowo wyzwalające najpierw, 16:9, jedno wyjście na wywołanie, brak obrazu referencyjnego do zarządzania. Sceny budowane są na nastroju, a nie dosłownych słowach kluczowych. Artykuł o bezpieczeństwie nie dostaje dashboardu bezpieczeństwa; dostaje spokojny, analityczny portret przy biurku w ciepłym, skupionym świetle. Artykuł o wydajności dostaje inną atmosferę, a nie wynik Lighthouse na ekranie. Rekwizyty dobierane są pod to, co model potrafi wyrenderować niezawodnie: zamknięty laptop, notes, kubek kawy, długopis. Otwarte ekrany, telefony wyświetlające aplikacje, cokolwiek z tekstem na powierzchni jest trzymane poza kadrem.
To też uczyniło pipeline programowym. Artykuły są grupowane w klastry (ai, security, performance, headless, plugins, seo, tutorial, strategy), każdy klaster mapowany do szablonu sceny nastroju, a skrypt backfillu może wygenerować spójną grafikę dla dowolnego wpisu z jego klastra i słowa wyzwalającego. Tożsamość jest stała z konstrukcji; nastrój zmienia się z tematem; nic w kadrze nie prosi modelu o coś, czego nie potrafi. Więcej notatek z budowy tej strony znajdziesz na blogu wppoland.
Jak sześć zdjęć staje się stabilną tożsamością
Zaskakującą częścią treningu było to, jak mało zdjęć wystarczyło i o ile bardziej liczył się dobór niż liczba. Sześć obrazów, dobranych tak, by żadne dwa nie dzieliły tego samego kąta, oświetlenia ani mimiki, i wszystkie z niezagraconymi tłami. Różnorodność jest właściwym sygnałem uczącym: mówi modelowi, które cechy to osoba, a które są przypadkowe dla jednego zdjęcia. Zestaw dwunastu niemal identycznych portretów nauczyłby model mniej, bo nie miałby jak oddzielić tożsamości od oświetlenia tego jednego ustawienia, a twarz przywiązałaby się do jednego pomieszczenia.
Dwa mniejsze wybory miały wagę. Słowo wyzwalające MRZSZ celowo nie jest prawdziwym słowem w żadnym z sześciu języków bloga; rzadki token unika kolizji ze słownictwem, które model bazowy już kojarzy z innymi konceptami, więc aktywacja tożsamości nie wciąga niepowiązanych skojarzeń. A czyste tła na zdjęciach treningowych powstrzymują LoRA przed nauczeniem się scenerii razem z twarzą, co uwalnia prompt do umieszczenia tej samej osoby w dowolnej scenie później. Nic z tego nie jest egzotyczne. To różnica między LoRA, która generalizuje, a taką, która zapamiętuje.
Konfiguracja dwóch pipeline’ów: LoRA i opcja awaryjna
LoRA nie wycofała pozostałych narzędzi; zajęła swoje właściwe miejsce obok nich. Strona utrzymuje dwie ścieżki generowania, bo nie każda grafika potrzebuje twarzy. Gdy autor ma się pojawić, Replicate Flux LoRA renderuje tożsamość w scenie nastroju. Gdy artykuł wymaga abstrakcyjnego lub technicznego obrazu bez żadnej osoby (martwa natura, ujęcie makro sprzętu), zwykłe wywołanie text-to-image przez Imagen jest tańszym, swobodniejszym narzędziem, za kilka centów za obraz i bez referencji do zarządzania. Jest też zachowana ścieżka image-to-image z referencją twarzy na rzadki przypadek, gdy konkretne prawdziwe zdjęcie, a nie zgeneralizowana tożsamość, jest właściwym punktem startu.
Zasada stojąca za utrzymaniem wszystkich trzech jest taka, że każde rozwiązuje inny kształt problemu, a zmuszanie jednego narzędzia do pokrycia ich wszystkich wyprodukowało wcześniejsze porażki. Drzewo decyzyjne jest krótkie: potrzebna osoba i liczy się spójność, użyj LoRA; brak osoby, użyj text-to-image; jedna konkretna prawdziwa klatka, użyj image-to-image. Skierowanie zapytania na właściwą ścieżkę to większość jakości.
Kiedy LoRA nie jest warta zachodu
Uczciwa przeciwwaga: trening LoRA z twarzą to przesada przy niskim wolumenie. Jeśli potrzebujesz kilku obrazów rocznie, narzędzia referencji twarzy na obraz są prostsze, nie wymagają treningu, a dryf na trzech czy czterech obrazach jest do zniesienia. LoRA odpracowuje koszt treningu tylko, gdy spełnione są dwa warunki jednocześnie: wolumen na tyle duży, że zarządzanie referencją na obraz staje się mozołem, oraz realna potrzeba jednej spójnej tożsamości w serii. Blog redakcyjny z setkami wpisów i jedną twarzą autora spełnia oba. Landing page z trzema ilustracjami nie.
Ogólna lekcja przeżywa konkretne narzędzia. Każde nieudane podejście zawiodło na innej warstwie: text-to-image na tożsamości, image-to-image na generalizacji, pierwsza LoRA na granicach tego, co dyfuzja potrafi narysować. Wybór właściwego narzędzia oznaczał nazwanie, na której warstwie naprawdę żyło wymaganie. Wymaganie nigdy nie brzmiało “zrób ładny obraz”. Brzmiało “ta sama osoba, w wiarygodnej scenie, dwieście razy”, a tylko ostatnie podejście było zbudowane pod to zdanie.



