Wie LLMs entscheiden, wen sie zitieren — eine Quellen-Hierarchie

Wer in einem LLM-Output zitiert wird, hat keinen Zufallstreffer. Es gibt erkennbare Muster, an denen ChatGPT, Perplexity, Claude und Gemini ihre Quellen-Auswahl orientieren. Sie sind nicht öffentlich dokumentiert — aber wer regelmäßig die gleichen Anfragen über Wochen vergleicht, sieht: Die Reihenfolge ist nicht zufällig.

Dieser Guide fasst zusammen, was wir in 12 Monaten GEO-Beobachtung gelernt haben — und welche praktischen Konsequenzen daraus für die eigene Sichtbarkeit folgen.

Die fünf wichtigsten Faktoren (in beobachteter Reihenfolge)

1. Entitäts-Konsistenz (siehe NAP-Konsistenz)

LLMs erfassen Entitäten — also Personen, Unternehmen, Produkte, Orte — als Knoten in einem Wissensgraphen. Eine Entität, die überall gleich auftritt, wird als verlässlich gewertet. Eine, deren Daten zwischen Quellen schwanken, wird als unsicher behandelt.

Praktisch: Wenn Sie auf 8 Plattformen identisch erscheinen und Konkurrent X auf 3 widersprüchlichen, gewinnen Sie — selbst wenn Konkurrent X technisch bessere Inhalte hat.

2. Strukturierte Daten (Schema.org)

JSON-LD ist die Maschinen-Sprache. Eine Site mit ausführlichem Service-Schema, FAQPage-Markup und Author-Identity wird vorrangig gelesen. Eine Site, die nur Fließtext ausliefert, muss vom LLM aufwendig geparsed werden — und schneidet bei Zweifeln schlechter ab.

Wichtig: Es geht nicht nur darum, Schema zu haben, sondern es korrekt zu verschachteln. Service mit provider-Verlinkung zu Organization, FAQPage mit referenziertem Article, Author mit sameAs-Links zu LinkedIn/Wikidata — das macht den Unterschied.

3. E-E-A-T (Experience, Expertise, Authoritativeness, Trustworthiness)

Google hat das Konzept eingeführt, LLMs haben es übernommen. LLMs prüfen:

Experience — Schreibt der Autor aus eigener Erfahrung? Gibt es Beispiele, Zahlen, Anekdoten?
Expertise — Hat der Autor eine erkennbare Qualifikation? Profile auf LinkedIn, Wikidata, ORCID, Berufsregister?
Authoritativeness — Wird die Site oder der Autor anderswo zitiert? Mentions in Branchenmedien, Verlinkung von autoritativen Domains?
Trustworthiness — Impressum vorhanden? Kontaktdaten plausibel? Reviews vorhanden? DSGVO-konform?

Sites ohne nachvollziehbares Impressum, ohne Author-Information und ohne Drittquellen-Referenzen werden tendenziell ignoriert.

4. Frische und Aktualität

LLMs trainieren mit Cutoff-Daten, aber die meisten haben mittlerweile Web-Browsing oder Live-Search-Fähigkeiten. Bei zeitkritischen Themen (Preisentwicklung, Gesetzeslage, neue Tools) zitieren sie überproportional Quellen mit jüngerem pubDate — Schema.org-datePublished und dateModified werden ausgewertet.

Praktisch: Ein 5 Jahre alter Top-Artikel zu einem dynamischen Thema verliert gegen einen frisch aktualisierten, auch wenn der ältere mehr Backlinks hat.

5. Technische Zugänglichkeit

Was nicht crawlbar ist, wird nicht zitiert. LLMs nutzen — wie klassische Crawler — robots.txt-Vorgaben. Sites, die OpenAI oder Anthropic in robots.txt blockieren, sind aus deren Trainingsdaten und teilweise auch aus deren Live-Search-Suchen ausgeschlossen.

Achtung: Die meisten WordPress-Standard-Robots erlauben das. Aber: Wer aus Datenschutz-Gründen LLM-Crawler explizit blockt (was legitim sein kann), verliert dafür GEO-Sichtbarkeit. Das ist eine bewusste Geschäfts-Entscheidung, kein technischer Fehler.

Was beobachtbar weniger Einfluss hat

Backlink-Anzahl als alleiniger Faktor — anders als bei Google. LLMs gewichten Quellen-Qualität, aber nicht so dominant nach Linkanzahl.
Keyword-Dichte — kaum messbar. Wer einen Long-Tail-Begriff fünfmal vs. zweimal nennt, gewinnt nichts. Was zählt: ist der Begriff im Kontext einer kohärenten Antwort genannt.
Site-Speed (CWV) als Ranking-Faktor in LLMs — anders als in Google AI Overviews. Eine langsame Site kann in ChatGPT zitiert werden, wenn die Inhalte stimmen. (CWV bleiben wichtig für klassisches SEO und Nutzerführung, aber nicht primärer LLM-Faktor.)
Social-Media-Signale — sehr begrenzt. LLMs zitieren selten direkt aus Social-Posts.

Praktische Konsequenzen für KMU

Wenn Sie Sichtbarkeit aufbauen wollen, in Reihenfolge der Wirkung:

NAP-Konsistenz herstellen. Diff-Audit aller Quellen, Reparatur der Top-Inkonsistenzen. Dauer: 1–2 Tage. Effekt: messbar in 4–8 Wochen.
Schema.org direkt im Code, nicht über Plugin. Service mit Offer, FAQPage für Q&A-Inhalte, Author mit sameAs. Dauer: 1–3 Tage Setup, dann laufende Pflege.
Author-Identität schärfen. Über-uns-Seite mit Person-Schema, LinkedIn und ggf. Wikidata-Eintrag. sameAs-Verlinkung. Dauer: 1 Tag.
Long-Form-Inhalte mit klaren Q&A-Blöcken. Was zitiert wird: konkrete Antworten auf konkrete Fragen, nicht SEO-Fließtext.
Inhalte aktuell halten. dateModified-Update, sobald sich ein Detail ändert. Quartals-Refresh der Top-10 Pages.

Was nicht hilft:

100 Backlinks von schwachen Quellen kaufen.
Keyword-stuffed Texte produzieren.
Plugin-Schemas hinzufügen, ohne sie zu prüfen.
Brand-Buzzwords wiederholen (“kompromisslos”, “branchenführend”) — LLMs erkennen das als Marketing-Sprache und gewichten es nicht.

Wie wir das in einem GEO-Audit prüfen

Unser GEO/LLM-Audit prüft die fünf Faktoren systematisch:

NAP-Konsistenz-Check über 8–12 Quellen
Schema.org-Audit mit JSON-LD-Diffs
E-E-A-T-Check: Author-Identity, Drittquellen-Referenzen
Frische-Check: dateModified der Top-20 Pages
robots.txt + LLM-Crawler-Konfiguration

Output: Mangelliste mit Priorisierung und Aufwandsschätzung. Kein Pauschalvertrag, keine Versprechen über exakte LLM-Position — sondern eine Methodik, die nachvollziehbar funktioniert.

Weiterführend

Was ist GEO? — der Einstiegs-Guide
Wie messen wir LLM-Sichtbarkeit ehrlich? — Reporting-Methodik
NAP-Konsistenz für LLM-Vertrauen — Detail zum wichtigsten Faktor