Was wir gemessen haben und was wir gefunden haben
Ein Quartal lang haben wir das Monitoring der KI-Sichtbarkeit auf unsere eigene Seite gerichtet und aufgeschrieben, was es zeigte, einschließlich der Teile, die nicht schmeichelhaft waren. Kurz gesagt: Unsere KI-Zitationsrate ist niedrig genau dort, wo es am meisten zählt, die von uns genutzte Methode bewegte die Zahl stärker als die zugrunde liegende Realität, und das mit Abstand nützlichste Ergebnis der Übung war zu lernen, einer sauber aussehenden Zahl zu misstrauen, die aus dem falschen Messinstrument stammt. Dies ist der erste Teil einer vierteljährlichen Reihe, also sind die Zahlen unten ein Ausgangswert, keine Ehrenrunde.
Die meisten Texte über KI-Sichtbarkeit sind Ratschläge. Dies ist Messung. Wir sind eine Agentur, die dafür plädiert, KI sauberes, serverseitig gerendertes HTML zu liefern, also war es nur fair zu prüfen, ob die Agentur selbst zitiert wird. Die Antwort war über drei Momentaufnahmen im April, Mai und Juni 2026 interessanter als eine einzelne Zahl.
Zuerst kommt das Instrumentenproblem
Vor jeder Erkenntnis steht der Vorbehalt, der alle anderen neu einordnet. Es gibt zwei verbreitete Arten zu messen, wie oft eine KI Sie zitiert, und sie stimmen nicht überein.
Der günstige Weg ist ein API-Proxy. Sie senden Ihre Prompts über die API eines Modells, lesen den zurückkommenden Text und zählen Markennennungen und Links. Er ist wiederholbar und nahezu kostenlos, weshalb er überall ist. Seine Schwäche besteht darin, dass der API-Pfad nicht das Produkt ist, das ein Kunde verwendet. Veröffentlichte Vergleiche beziffern die Quellenüberschneidung zwischen API-Antworten und der Konsumenten-Weboberfläche im niedrigen einstelligen Prozentbereich, sodass ein Proxy Ihnen sagen kann, dass ein Modell Ihren Namen abstrakt kennt, während er Ihnen nichts Verlässliches darüber sagt, was ein echter Nutzer sieht.
Der ehrliche Weg ist, die echten Konsumentenausgaben zu überwachen, dieselben Antworten, die eine Person in der ChatGPT- oder Perplexity-Oberfläche erhält, einschließlich der Quellen, die das Produkt tatsächlich anzeigt. Das kostet mehr und ist schwerer zu automatisieren. Es ist auch die einzige Zahl, die einem verlorenen oder gewonnenen Besuch entspricht.
Wir haben beide genutzt, in dieser Reihenfolge, und die Kluft zwischen ihnen ist die am breitesten anwendbare Lektion dieses Berichts.
April: der günstige Proxy-Ausgangswert
Unsere erste Momentaufnahme am 6. April war ein API-Proxy-Lauf. Die Kennzahlen über 26 Abfragen gegen ChatGPT:
| Metrik | Ergebnis |
|---|---|
| Markennennungsrate | 7,7 Prozent (2 von 26) |
| URL-Zitationsrate | 0 Prozent |
| Stärkste Kategorie | Plugins, 14,3 Prozent Nennung |
| Transaktionale Kategorie | 12,5 Prozent Nennung |
| Informationell und lokal | 0 Prozent Nennung |
Eine Nennungsrate unter acht Prozent und eine Zitationsrate von null liest sich wie eine Katastrophe. Das nützlichere Detail ist, wer stattdessen zitiert wurde. Als das Modell nach einer Quelle zu polnischer WordPress-Arbeit griff, nannte es Verzeichnisse und Jobportale: pracuj.pl tauchte dreimal auf, neben clutch.co, olx.pl, home.pl, nazwa.pl und einer Ankündigung für ein Entwickler-Meetup. Das sind keine Wettbewerber, die uns überschrieben haben. Es sind Aggregatoren, denen das Modell als generische Antworten auf eine kommerzielle Frage vertraut. Dieses Muster, bei dem der Assistent auf ein Verzeichnis statt auf einen Spezialisten zurückgreift, erwies sich als die eigentliche Geschichte, und On-Page-Feinschliff behebt das nicht.
Der Bericht selbst trug die Warnung, die auch Sie mittragen sollen: API-Proxy, nur richtungsweisende Trends, etwa vier Prozent Quellenüberschneidung mit der Weboberfläche. Wir wussten damals noch nicht, wie sehr diese Warnung zählte.
Mai: das Instrument geht ehrlich kaputt
Die Momentaufnahme vom 11. Mai, ebenfalls ein Proxy-Lauf, lieferte ein Ergebnis, das wie ein Fehler aussah und tatsächlich das ehrlichste Ergebnis des Quartals war. Über 20 Abfragen, verteilt auf ChatGPT, Perplexity, Bing Copilot und Claude, sah die Aufschlüsselung so aus:
| Engine | Abfragen | Zitiert | Zitationsrate |
|---|---|---|---|
| ChatGPT | 6 | 0 | unbestimmt |
| Perplexity | 6 | 0 | unbestimmt |
| Bing Copilot | 4 | 0 | unbestimmt |
| Claude | 4 | 0 | unbestimmt |
Jede einzelne Abfrage kam als unbestimmt zurück. Nicht “nicht zitiert”, unbestimmt. Der Proxy konnte nicht feststellen, ob die Antwort überhaupt in abgerufenen Seiten verankert war, also verweigerte er die Bewertung. Eine naive Lesart macht daraus eine “Zitationsrate von null Prozent” und einen panischen Montag. Die richtige Lesart ist, dass das Instrument uns mitteilte, dass es nicht sehen konnte, worum wir es zur Messung baten. Eine Messung, die unbestimmt zurückgibt, tut ihre Arbeit. Eine Messung, die in derselben Situation still null zurückgibt, lügt Sie an, und etliche KI-Sichtbarkeits-Dashboards tun genau das.
Juni: echtes Monitoring und eine nützliche Aufspaltung
Im Juni wechselten wir vom API zum Monitoring der echten Modellausgaben. Das Bild schärfte sich sofort und war nicht einheitlich.
Bei einer engen Abfrage, einem polnischen Studio, das ausländische WordPress-Kunden betreut, lagen wir in fünf der sechs getesteten Modelle auf Platz eins. Das ist eine echte, vertretbare Position und entspricht der Art, wie wir uns beschreiben. Es entspricht auch der Realität: Es ist eine spezifische Identitätsaussage mit wenig Konkurrenz, genau die Art von Abfrage, die ein Spezialist besitzen sollte.
Bei transaktionalen WooCommerce-Abfragen, den umsatznächsten Abfragen, waren wir nahezu unsichtbar. Die Modelle antworteten selbstbewusst und griffen nicht nach uns. ChatGPT war durchweg der schwächste Kanal für die Marke und lieferte über den gesamten Satz die geringste Präsenz. Perplexity war der stärkste, was nicht überrascht, sobald man weiß, dass sich Perplexity stark auf die Live-Websuche stützt statt nur auf das Trainingsgedächtnis. Die Wettbewerber, die auftauchten, waren überwiegend allgemeine SEO- und SEM-Agenturen, die sich als Anbieter von “AI SEO” vermarkten, keine WooCommerce-Spezialisten. Die Lücke ist mit anderen Worten eine Frage von Autorität und Assoziation, nicht von Seitenqualität.
Was die drei Momentaufnahmen zusammen ergeben
Zusammen gelesen sagt das Quartal drei Dinge klar.
Erstens ist die Methode Teil der Zahl. Die Proxy-Läufe im April und Mai und der Lauf des echten Monitorings im Juni maßen dieselbe Seite in denselben Wochen, und sie wichen so stark voneinander ab, dass das Zitieren irgendeiner einzelnen Zahl ohne ihre Methode irreführend wäre. Wenn ein Werkzeug Ihnen eine KI-Zitationsrate liefert, ohne Ihnen zu sagen, ob es die API oder das Produkt gelesen hat, misstrauen Sie ihm.
Die Erstanbieter-Messung ist der eigentliche Sinn dieser ganzen Übung, und es ist dieselbe Disziplin, die wir auf Kundenarbeit anwenden: Eine Zahl, die Sie nicht reproduzieren können, ist kein Beweis. Dieselbe Lektion lernten wir auf die harte Tour mit einem Experiment mit einer synthetischen Marke, bei dem ein Modell selbstbewusst ein Unternehmen beschrieb, das nicht existierte. Die Messung einer echten Marke hat den umgekehrten Fehlermodus, das selbstbewusste Melden von null, wenn die Wahrheit unbekannt ist, und beides läuft darauf hinaus, das Instrument zu prüfen, bevor man dem Messwert vertraut.
Zweitens sind Identitätsabfragen gewinnbar und transaktionale nicht, zumindest nicht on-page. Wir halten die enge Positionierungsabfrage, weil sie spezifisch und nur leicht umkämpft ist. Wir verlieren die kommerziellen Abfragen, weil sich die Modelle auf Verzeichnisse und breit aufgestellte Agenturen stützen, und keine Menge an saubererem HTML ändert, mit wem ein Modell bereits einen “WooCommerce-Entwickler” assoziiert. Das ist ein Off-Page-Autoritätsproblem.
Drittens zählt der Kanal. Eine Marke kann in derselben Woche in Perplexity zitiert und in ChatGPT nahezu abwesend sein, weil die beiden Produkte Antworten unterschiedlich verankern. Ein einziger gemischter “KI-Sichtbarkeitswert” verbirgt genau die Information, die Sie brauchen.
Was wir geändert haben
Wir haben keine Seiten als Reaktion auf eine Proxy-Zahl umgeschrieben, denn das hieße, für ein Instrument statt für einen Kunden zu optimieren. Stattdessen änderte die Messung, wo wir Aufwand investieren.
- Wir haben den Abfragesatz und die Kadenz festgelegt: eine stabile Liste von Identitäts-, Informations- und Transaktionsabfragen, monatlich erfasst, mit Engine und Datum auf jeder Zahl gestempelt.
- Wir haben aufgehört, Proxy-Zahlen mit Zahlen aus dem echten Monitoring zu vergleichen, und kennzeichnen jetzt jede Zahl mit ihrer Methode.
- Wir haben die Arbeit an der transaktionalen Sichtbarkeit off-page verlagert, weil die Lücke dort Assoziation und Autorität ist, nicht On-Page-Inhalt, und das ist in unserem Vorgehen für GEO und LLMO dokumentiert statt in einer weiteren Überarbeitung.
- Wir liefern weiterhin alles in serverseitig gerendertem HTML aus, was die Voraussetzung dafür ist, überhaupt zitierbar zu sein, und das Thema unserer Notiz darüber ist, warum westliche Assistenten rohes HTML lesen.
Wie Sie das selbst durchführen
Sie brauchen unser Budget nicht, um zu beginnen. Das ehrliche Mindestsetup ist eine feste Liste von zehn bis zwanzig Abfragen, die echte Kunden stellen würden, einmal im Monat ausgeführt, mit drei Spalten, die jedes Mal erfasst werden: die Engine, das Datum und ob Ihre Marke genannt oder Ihre URL verlinkt wurde. Fügen Sie eine vierte Spalte dafür hinzu, welche anderen Domains zitiert wurden, denn das sagt Ihnen, gegen wen Sie in der Antwort tatsächlich konkurrieren, und das ist selten der, den Sie vermuten.
Wenn Sie ein automatisiertes Werkzeug verwenden, stellen Sie ihm eine Frage, bevor Sie einem einzigen Diagramm vertrauen: Liest du die API oder das Produkt? Wenn es das nicht beantworten kann, behandeln Sie die Ausgabe nur als richtungsweisend, so wie unsere Läufe im April und Mai. Und lassen Sie ein Werkzeug niemals ein unbestimmtes Ergebnis in eine selbstbewusste Null verwandeln.
Das ehrliche Fazit
Ein Quartal der Messung unserer eigenen KI-Zitate brachte eine unbequeme Zahl hervor, unsere transaktionale Zitationsrate ist niedrig, und eine wirklich wertvolle Gewohnheit, niemals eine KI-Sichtbarkeitszahl ohne die Methode zu nennen, die sie erzeugt hat. Die Proxy-Läufe ließen uns im Mai schlechter aussehen als die Realität, und das echte Monitoring zeigte eine vertretbare Identitätsposition, die der Proxy übersehen hatte. Beide Messwerte waren gerade deshalb nützlich, weil wir aufgeschrieben haben, wie jeder erhoben wurde. Dies ist Bericht eins. Wir veröffentlichen die nächste Momentaufnahme am Ende des Quartals, auf demselben Abfragesatz, damit die Reihe verglichen statt bewundert werden kann. Wenn Sie von KI zitiert werden wollen, beginnen Sie damit, es ehrlich zu messen, und bauen Sie das in den Arbeitsablauf ein, den wir für GEO und LLMO beschreiben.

