Warum die Metapher der Karteikarte in die Irre führt

Fragen Sie ChatGPT: „Welche Analyseplattform eignet sich für einen mittelgroßen E-Commerce?" — und achten Sie darauf, wie die Antwort aufgebaut ist. Das Modell wird nicht Gartner öffnen, nicht die Website jedes Anbieters besuchen und keine Tarife vergleichen. Es wird die Antwort aus dem zusammensetzen, was es bereits hat: Dokumentationsfragmente, Spuren von Fachartikeln, Reste von Reddit-Vergleichen, Bruchstücke von Pressemitteilungen, die zwei Jahre alt sind. Eine Marke wird präzise beschrieben — richtige Kategorie, aktuelle Merkmale, zutreffende Preisspanne. Eine andere wird genannt, aber mit der Muttergesellschaft verwechselt. Eine dritte fehlt gänzlich, obwohl sie nach Umsatz die beiden ersten übertrifft. Woher kommt diese Ungleichmäßigkeit? Im Modell gibt es keine Markenkarte mit ordentlichen Feldern für „Name — Kategorie — Preis — Vorteile". Es gibt etwas völlig anderes: ein verteiltes Netzwerk probabilistischer Verbindungen — Spuren in Parametern, aktivierbare Muster, verborgene Berechnungszustände und, in Suchmodi, frische Dokumente, die im Moment der Antwort eingespeist werden.

Solange ein Unternehmen sich einen ordentlichen Platz im Maschinengedächtnis vorstellt, sucht es nach einfachen Rezepten: „mehr Erwähnungen erzeugen", „Überschriften aktualisieren", „noch eine Seite über uns veröffentlichen". Versteht man aber, dass die Marke im Modell eher einer Wahrscheinlichkeitslandschaft als einem Datenbankeintrag gleicht, verändert sich die Aufgabe. Dann geht es nicht um die Menge der Signale, sondern um deren Kohärenz: Ist der Name stabil mit der Kategorie verknüpft? Lassen sich die Produkte voneinander unterscheiden? Werden die wesentlichen Eigenschaften aus mehreren Quellen bestätigt? Kann das Modell Ihre Entität mühelos von benachbarten trennen? Warum eine starke Marke überhaupt maschinell unsichtbar wird — vier strukturelle Ursachen — wird im vorhergehenden Artikel behandelt; hier gehen wir eine Ebene tiefer und untersuchen, wie das Wissen über ein Unternehmen im Modell organisiert ist.

Was Studien zur Interpretierbarkeit zeigen

Die Arbeiten der letzten Jahre machen dieses innere Bild Schritt für Schritt weniger rätselhaft. Die Arbeit von Mor Geva und Koautoren zeigte, dass Feed-Forward-Blöcke der Transformer-Architektur häufig wie eine Art Schlüssel-Wert-Gedächtnis funktionieren: Bestimmte textuelle Eingabemuster aktivieren andere und lenken das Modell auf eine bestimmte Fortsetzung im Vokabular [1]. Die Arbeit von Kevin Meng und Kollegen zur Lokalisierung und Bearbeitung faktischer Assoziationen zeigte, dass sich ein Teil der Fakten in Modellen zur Textvervollständigung tatsächlich mit relativ gut lokalisierbaren Rechenknoten verbinden lässt, insbesondere in mittleren Schichten [2]. Eine spätere Arbeit von Masaki Sakata und Koautoren zeigte, dass Erwähnungen derselben Entität dazu tendieren, im internen Repräsentationsraum unterscheidbare Cluster zu bilden, und dass Informationen, die mit dieser Entität verbunden sind, in frühen Schichten häufig in einem kompakten linearen Unterraum konzentriert sind [3]. Schließlich betonen Übersichtsarbeiten zur Wissensmechanik in großen Sprachmodellen ein gemeinsames Ergebnis: Wissen existiert in solchen Systemen tatsächlich, ist aber verteilt, fragil und von der Art seines Abrufs abhängig [4][5].

Am einfachsten lässt sich das so vorstellen. Im Modell existiert eine Marke als probabilistisches Relief. In diesem Relief gibt es Zonen, in denen der Name des Unternehmens Begriffen wie „Analytik“, „Sicherheit“, „Plattform“, „Prognostik“, „Unternehmensmarkt“ oder etwa „Kundenerlebnismanagement“ nahe liegt. Es gibt Verbindungen zu bekannten Produkten. Es gibt Spuren alter Pressemitteilungen. Es gibt Nachbarschaften zu Wettbewerbern. Es gibt Spuren von Nutzerfragen, auf die in den Trainingsdaten häufig bestimmte Arten von Antworten folgten. Wenn das Modell eine neue Anfrage erhält, „zieht“ es nicht eine Karteikarte heraus, sondern bewegt sich über dieses Relief und setzt die wahrscheinlichste Interpretation zusammen.

Genau deshalb sollte die Frage „Was weiß KI über ein Unternehmen?“ besser durch eine andere ersetzt werden: „Welche Konfiguration von Beziehungen ist KI in der Lage, über ein Unternehmen in unterschiedlichen Kontexten stabil zu rekonstruieren?“ Das ist präziser und nützlicher. Denn für Unternehmen zählt nicht der abstrakte Wissensstand des Modells, sondern Stabilität. Wenn man das System auf zehn ähnliche Arten fragt, ordnet es die Marke dann immer wieder derselben Kategorie zu? Verbindet es sie mit denselben zentralen Eigenschaften? Unterscheidet es korrekt zwischen Produkt und Unternehmen, zwischen Unternehmen und Muttergesellschaft, zwischen juristischem Namen und Verbrauchermarke? Oder löst jede neue Anfrage eine leicht andere Entität aus?

Probabilistisches Relief, Vektoren und stabile Verbindungen

Diese Stabilität zeigt sich gut am Beispiel von Vektorrepräsentationen (embeddings), also numerischen Repräsentationen von Text, in die Wörter, Phrasen und Kontextfragmente übersetzt werden. Die Nähe zweier solcher Repräsentationen wird oft mit der Kosinusähnlichkeit gemessen:

cos(theta) = (x · y) / (||x|| ||y||)

Hier sind x und y zwei Vektoren. Der eine kann einer Menge von Erwähnungen der Marke entsprechen, der andere einem Merkmal wie „Unternehmensanalytik“ oder „günstiger Verbraucherservice“. Liegt der Kosinus nahe bei eins, ähneln sich die Richtungen der Vektoren, und das System neigt dazu, diese Objekte als eng verbunden zu behandeln. Ist der Wert gering oder ändert er sich von Kontext zu Kontext, erweist sich die Verbindung als schwach oder instabil. Ein Unternehmen hat in geschlossenen kommerziellen Modellen keinen direkten Zugriff auf solche Vektoren. Die zugrunde liegende Logik bleibt jedoch nützlich: Eine Marke gewinnt dann, wenn wichtige Verbindungen in ihrem maschinellen Bild nicht zufällig, sondern wiederholbar sind.

Daraus wird auch die Natur typischer Verzerrungen verständlich. Wenn der Markenname mehrdeutig ist, kann das Modell ihn zu stark an eine allgemeine Kategorie heranziehen und dabei Individualität verlieren. Wenn ein Unternehmen mehrere Produktlinien mit unterschiedlichen Beschreibungssprachen hat, fügen sie sich im Modell womöglich nicht zu einer einheitlichen Familie zusammen. Wenn die Außenwelt die ältere Version einer Marke besser kennt als die neue, wird das Modell „die Vergangenheit“ beharrlicher erinnern, als es dem Marketing lieb ist. Wenn Wettbewerber über eine klarere und besser bestätigte semantische Kontur verfügen, führt eine Anfrage nach einer Lösungsklasse nicht zum betreffenden Unternehmen, sondern zu ihnen. Und umgekehrt: Wenn eine Marke in der Sprache des Marktes, in unabhängigen Quellen und in ihren eigenen klaren Beschreibungen systematisch präsent ist, setzt das Modell mit höherer Wahrscheinlichkeit gerade sie zusammen – selbst dann, wenn das Unternehmen nicht das größte ist.

Drei Schichten der internen Repräsentation und eine neue Diagnose

Die interne Repräsentation einer Marke lässt sich sinnvoll in drei Schichten unterteilen. Die erste Schicht ist das parameterische Gedächtnis. Darin steckt, was das Modell während des Trainings und der nachfolgenden Anpassung aufgenommen hat: allgemeine Fakten, typische Assoziationen, gewohnte Verknüpfungen zwischen Name und Eigenschaften. Die zweite Schicht ist die kontextuelle Rekonstruktion. Sie beschreibt, wie die Marke unmittelbar im Moment der Antwort aus den verborgenen Zuständen des aktuellen Dialogs rekonstruiert wird: welche Wörter des Nutzers welche Teile des maschinellen Wissens aktivieren. Die dritte Schicht ist die externe Verstärkung. In Antwort- und Suchmodi kommen hier aktuelle Webseiten, Dokumente und Wissensbasen hinzu, die das Endergebnis beeinflussen [4][6][7]. In der Praxis bestimmt gerade das Zusammenspiel dieser drei Schichten, wie eine Marke in der Antwort erscheint.

Diese Struktur erklärt, warum viele Unternehmen bei der Diagnose irren. Wenn eine Marke in einer Antwort nicht genannt wird, nimmt man schnell an, „das Modell kennt uns nicht“. Manchmal stimmt das, oft aber nicht. Das Modell kann ein Unternehmen dem Namen nach kennen und es dennoch nicht für die beste Antwort auf eine Frage halten. Es kann sich an das Produkt erinnern, es aber nicht mit dem richtigen Nutzungsszenario verbinden. Es kann die Website korrekt zitieren, die Bedeutung einzelner Merkmale aber falsch gewichten. Es kann sich auf aktuelle Web-Quellen stützen und dadurch älteres internes Wissen übersteuern. Mit anderen Worten: Das Problem kann weniger im Vorhandensein von Wissen liegen als in seiner Konfiguration.

Das ist besonders wichtig für Marken, die sich lange auf die Stärke ihrer eigenen Kommunikation stützen konnten. Innerhalb eines KI-Systems gewinnt nicht nur, wer laut über sich spricht, sondern auch, über wen sich eine widerspruchsfreie Repräsentation aufbauen lässt. Eine widerspruchsfreie Repräsentation verlangt Disziplin. Der Name muss stabil sein. Die Kategorie muss klar sein. Die Produktstruktur muss unterscheidbar sein. Die Eigenschaften müssen direkt formuliert sein und dürfen nicht nur angedeutet werden. Externe Bestätigungen müssen vielfältig und belastbar sein. Dann hat das Modell die Chance, die Marke nicht nur zu erkennen, sondern sie als stabile Entität im Gedächtnis zu halten.

Hier ergibt sich eine weitere wichtige Schlussfolgerung. Die Arbeit an der internen Repräsentation einer Marke erschöpft sich nicht in „Textoptimierung“. Im Kern geht es um die epistemische Form des Unternehmens, also um die Form, in der das Unternehmen als Wissen existiert. Wenn eine Marke als Wissen schlecht zusammengesetzt ist, muss ein KI-System Lücken probabilistisch ergänzen. Wenn eine Marke als Wissen gut zusammengesetzt ist, sinkt die Wahrscheinlichkeit von Verzerrungen. In diesem Sinn ist der heutige Kampf um Sichtbarkeit nicht nur ein Kampf um Traffic, sondern auch um die Qualität maschinellen Verstehens.

Dieser Blickwinkel ist auch deshalb nützlich, weil er die Diskussion auf eine reifere Ebene zurückführt. Man sollte nicht fragen, „ob KI sich an uns erinnert“. Man sollte fragen, welche Eigenschaften einer Marke stabil extrahiert werden, welche Beziehungen verloren gehen, welche Attribute überbewertet werden und welche überhaupt nicht in der Antwort erscheinen. Mit diesen Fragen beginnen bereits Strategie, Diagnose und inhaltliche Arbeit. Genau sie unterscheiden eine ernsthafte Steuerung maschineller Sichtbarkeit von einem oberflächlichen Wettlauf um zufällige Erwähnungen.

Was als gesichert gelten kann

Mit hoher Sicherheit lässt sich sagen, dass Wissen in modernen Sprachmodellen verteilt ist und kontextabhängig abgerufen wird. Daraus folgt, dass sich die Stabilität einer Marke in Antworten nicht auf die bloße Präsenz ihres Namens im Trainingsmaterial reduzieren lässt.

Wo Unsicherheit bleibt

Weniger zuverlässig geklärt ist die genaue Geometrie dieses Wissens in geschlossenen kommerziellen Systemen. Wir erkennen die allgemeinen Mechanismen aus akademischen Arbeiten, haben aber keinen direkten Zugriff auf die internen Vektoren und die Regeln der Zusammensetzung auf den einzelnen Plattformen.

Was sich in der Praxis ändert

Für Unternehmen bedeutet das den Übergang von der Sprache der „Textoptimierung“ zur Sprache der epistemischen Form: Entscheidend ist, welche Eigenschaften einer Marke stabil extrahiert werden und welche zerfallen oder verzerrt werden.

Quellen

[1] Geva M., Schuster R., Berant J., Levy O. Transformer Feed-Forward Layers Are Key-Value Memories. EMNLP, 2021
[2] Meng K., Bau D., Andonian A., Belinkov Y. Locating and Editing Factual Associations in GPT. NeurIPS, 2022
[3] Sakata M., Yokoi S., Heinzerling B., Ito T., Inui K. On Entity Identification in Language Models. Findings of ACL, 2025
[4] Wang M. et al. Knowledge Mechanisms in Large Language Models: A Survey and Perspective. EMNLP Findings, 2024
[5] Wang Y. et al. Factuality of Large Language Models: A Survey. EMNLP, 2024
[6] Yadav I., et al. External Knowledge Integration in Large Language Models: Survey, Methods, Challenges, and Future Directions. Semantic Web Journal, 2025
[7] Google Search Central. AI Features and Your Website. 2026

Verwandte Materialien

Grundlagentext 7 Min.

Warum eine starke Marke für KI-Systeme unsichtbar sein kann

Erklärt das zentrale Paradoxon: Eine Marke kann bei Menschen bekannt und zugleich für KI im Moment der realen Auswahl schlecht unterscheidbar sein.

Material öffnen →
Grundlagentext 7 Min.

Aus welchen Quellen KI ihr Bild einer Marke zusammensetzt — und warum die Website nicht die Hauptrolle spielt

Aus welchen Schichten die KI ihre Meinung über eine Marke zusammensetzt: eigene Website, Suchkontext, unabhängige Bewertungen, Nutzerplattformen — und warum die Website nicht mehr der alleinige Schiedsrichter ist.

Material öffnen →
Nächster Schritt

Wie das in der Praxis mit AI100 zusammenhängt

Wenn Sie nicht einen Überblick, sondern eine spezifische Diagnose für Ihre Marke brauchen, können Sie mit AI100 prüfen, wie das Modell das Unternehmen in neutralen Auswahlszenarien wahrnimmt, welche Wettbewerber höher positioniert sind und welche Verbesserungen die Sichtbarkeit am ehesten steigern.

Beispielbericht ansehen