Pourquoi la métaphore de la fiche induit en erreur

Essayez de demander à ChatGPT : « Quelle plateforme d'analytique choisir pour un e-commerce de taille moyenne ? » — et observez comment la réponse se construit. Le modèle n'ouvrira pas Gartner, ne visitera pas le site de chaque éditeur et ne comparera pas les tarifs. Il assemblera la réponse à partir de ce qu'il possède déjà : des fragments de documentation, des traces d'articles comparatifs, des restes de discussions Reddit, des morceaux de communiqués de presse vieux de deux ans. Une marque sera décrite avec précision — bonne catégorie, caractéristiques actuelles, fourchette de prix correcte. Une autre sera nommée mais confondue avec sa maison mère. Une troisième sera tout simplement absente, bien que son chiffre d'affaires dépasse celui des deux premières. D'où vient cette inégalité ? À l'intérieur du modèle, il n'existe aucune fiche de marque avec des champs bien rangés « nom — catégorie — prix — avantages ». Ce qu'on y trouve est tout autre : un réseau distribué de connexions probabilistes — des traces dans les paramètres, des schémas activables, des états cachés de calcul et, dans les modes de recherche, des documents frais incorporés au moment de la réponse.

Tant qu'une entreprise imagine une cellule bien ordonnée dans la mémoire de la machine, elle cherche des recettes simples : « ajouter des mentions », « mettre à jour les titres », « publier une page de plus sur nous ». Mais dès lors qu'on comprend que la marque à l'intérieur du modèle ressemble davantage à un relief de probabilités qu'à un enregistrement dans une base de données, la tâche change de nature. La question n'est pas le nombre de signaux produits, mais leur cohérence : le nom est-il lié de manière stable à la catégorie, les produits sont-ils distinguables les uns des autres, les propriétés clés sont-elles confirmées par des sources multiples, le modèle peut-il facilement séparer votre entité de celles qui l'entourent ? Pourquoi une marque forte finit par devenir invisible pour la machine — quatre causes structurelles — est traité dans l'article précédent ; ici, nous descendons d'un niveau pour examiner comment le savoir sur l'entreprise est organisé à l'intérieur du modèle.

Ce que montrent les recherches sur l’interprétabilité

Les recherches sur l’interprétabilité de ces dernières années rendent progressivement cette image interne moins mystérieuse. Les travaux de Mor Geva et de ses coauteurs ont montré que les blocs entièrement connectés de l’architecture Transformer se comportent souvent comme une forme de mémoire « clé-valeur » : certains motifs textuels d’entrée en activent d’autres et orientent le modèle vers une continuation lexicale déterminée [1]. Les travaux de Kevin Meng et de ses collègues sur la localisation et la modification des associations factuelles ont montré qu’une partie des faits, dans les modèles d’autocomplétion, peut effectivement être reliée à des nœuds de calcul relativement localisables, surtout dans les couches intermédiaires [2]. Des travaux plus récents de Masaki Sakata et de ses coauteurs ont constaté que les mentions d’une même entité tendent à former des groupes distincts dans l’espace des représentations internes, et que les informations liées à l’entité se concentrent souvent dans un sous-espace linéaire compact dans les premières couches du modèle [3]. Enfin, les synthèses consacrées aux mécanismes de connaissance dans les grands modèles de langage soulignent une conclusion générale : la connaissance existe bel et bien dans de tels systèmes, mais elle est distribuée, fragile et dépend de la manière dont on l’extrait [4][5].

Le plus simple est de se représenter les choses ainsi. À l’intérieur du modèle, la marque existe comme un relief probabiliste. Sur ce relief, il y a des zones où le nom de l’entreprise est proche de mots comme « analytique », « sécurité », « plateforme », « prévision », « marché des entreprises » ou, par exemple, « gestion de l’expérience client ». Il y a des liens avec des produits connus. Il y a des traces d’anciens communiqués de presse. Il y a un voisinage avec les concurrents. Il y a des traces de questions d’utilisateurs qui, dans les données d’apprentissage, appelaient souvent certains types de réponses. Lorsque le modèle reçoit une nouvelle requête, il ne « sort pas une fiche » : il parcourt ce relief et assemble l’interprétation la plus probable.

C’est précisément pourquoi la question « que sait l’IA d’une entreprise ? » gagnerait à être remplacée par une autre : « quelle configuration de relations l’IA est-elle capable de reconstituer de manière stable au sujet d’une entreprise dans différents contextes ? » C’est plus exact et plus utile. Car, pour une entreprise, ce qui compte n’est pas une connaissance abstraite du modèle, mais la stabilité. Si l’on interroge le système de dix manières voisines, rattachera-t-il, à chaque fois, la marque à la même catégorie ? L’associera-t-il aux mêmes propriétés principales ? Distinguera-t-il correctement le produit de l’entreprise, l’entreprise de la structure mère, la dénomination juridique du nom commercial ? Ou bien chaque nouvelle requête fera-t-elle surgir une entité légèrement différente ?

Relief probabiliste, vecteurs et relations stables

Cette stabilité se voit bien sur l’exemple des représentations vectorielles (embeddings), c’est-à-dire des représentations numériques du texte dans lesquelles sont convertis les mots, les phrases et les fragments de contexte. La proximité entre deux telles représentations se mesure souvent par la similarité cosinus :

cos(theta) = (x · y) / (||x|| ||y||)

Ici, x et y sont deux vecteurs. L’un peut correspondre à un ensemble de mentions de la marque, l’autre à un attribut comme « analytique d’entreprise » ou « service grand public bon marché ». Si le cosinus est proche de l’unité, les directions des vecteurs se ressemblent et le système tend à considérer ces objets comme étroitement liés. Si la valeur est faible ou varie selon le contexte, le lien se révèle faible ou instable. L’entreprise n’a pas d’accès direct à de tels vecteurs à l’intérieur des modèles commerciaux fermés. Mais la logique elle-même est utile : la marque gagne lorsque les relations importantes dans sa représentation par la machine ne sont pas accidentelles, mais répétables.

De là devient aussi compréhensible la nature des distorsions typiques. Si le nom de la marque est ambigu, le modèle peut l’attirer trop fortement vers la catégorie générale et lui faire perdre sa singularité. Si l’entreprise a plusieurs lignes de produits décrites dans des langages différents, elles peuvent ne pas se constituer, à l’intérieur du modèle, en une même famille. Si l’environnement externe connaît mieux l’ancienne version de la marque que la nouvelle, le modèle s’accrochera au passé plus longtemps que le marketing ne le souhaiterait. Si les concurrents disposent d’un contour sémantique plus net et mieux confirmé, une requête portant sur une classe de solutions mènera non pas à votre entreprise, mais à eux. Et, inversement, si la marque est systématiquement présente dans le langage du marché, dans des sources indépendantes et dans ses propres descriptions claires, le modèle a davantage de chances de reconstituer précisément votre entreprise, même si celle-ci n’est pas la plus grande.

Les trois couches de la représentation interne et un nouveau diagnostic

Il est commode de diviser la représentation interne de la marque en trois couches. La première est la mémoire paramétrique. C’est ce que le modèle a assimilé pendant l’apprentissage et les ajustements ultérieurs : des faits généraux, des associations typiques, des liens habituels entre le nom et les propriétés. La deuxième est l’assemblage contextuel. C’est la manière dont la marque est reconstruite au moment même de la réponse à partir des états cachés du dialogue en cours : quels mots de l’utilisateur ont activé telle ou telle partie de la connaissance machine. La troisième est le renforcement externe. Dans les modes de réponse et de recherche, des pages web récentes, des documents et des bases de connaissances s’y ajoutent, qui influencent le résultat final [4][6][7]. En pratique, c’est précisément l’interaction de ces trois couches qui détermine la manière dont la marque apparaîtra dans la réponse.

Cette structure explique pourquoi tant d’entreprises se trompent dans leur diagnostic. Lorsque la marque n’est pas nommée dans la réponse, on a tendance à penser que « le modèle ne nous connaît pas ». C’est parfois vrai, mais pas toujours. Le modèle peut connaître l’entreprise par son nom et pourtant ne pas la juger comme la meilleure réponse à la question. Il peut se souvenir du produit sans le rattacher au bon scénario d’usage. Il peut citer correctement le site, mais hiérarchiser de manière erronée l’importance des attributs. Il peut s’appuyer sur des sources web actuelles et, ce faisant, redéfinir l’ancienne connaissance interne. Autrement dit, le problème peut ne pas tenir à l’existence de la connaissance, mais à sa configuration.

Cela est particulièrement important pour les marques habituées à s’appuyer sur la force de leur propre communication. Au sein des systèmes d’IA, ne gagne pas seulement celui qui parle fort de lui-même, mais aussi celui dont on peut construire une représentation cohérente. Or une représentation cohérente exige de la discipline. Le nom doit être stable. La catégorie, claire. La structure produit, lisible. Les propriétés, formulées explicitement et non seulement suggérées. Les confirmations externes, diverses et fiables. Alors le modèle a une chance non seulement de reconnaître la marque, mais aussi de la maintenir en mémoire comme une entité stable.

Un autre point important apparaît ici. Travailler sur la représentation interne de la marque ne se réduit pas à une « optimisation de texte ». Au fond, il s’agit d’un travail sur la forme épistémique de l’entreprise, c’est-à-dire sur la manière dont l’entreprise existe comme connaissance. Lorsqu’une marque est mal assemblée comme connaissance, le système d’IA est contraint de combler les lacunes de façon probabiliste. Lorsqu’elle est bien assemblée, la probabilité de distorsion diminue. En ce sens, la lutte contemporaine pour la visibilité n’est pas seulement une lutte pour le trafic, mais aussi une lutte pour la qualité de la compréhension machine.

Cette perspective est utile aussi parce qu’elle ramène la conversation sur un terrain plus mûr. Il ne faut pas demander « l’IA se souvient-elle de nous ? ». Il faut se demander quelles propriétés de notre marque sont extraites de manière stable, quelles relations se perdent, quels attributs sont surestimés et lesquels n’entrent pas du tout dans la réponse. À partir de là commencent déjà la stratégie, le diagnostic et le travail de fond. Ce sont eux qui distinguent une gestion sérieuse de la visibilité machine d’une course superficielle aux mentions aléatoires.

Ce qui semble bien établi

On peut affirmer avec assurance que la connaissance, dans les modèles de langage contemporains, est distribuée et s’extrait de manière contextuelle. Il s’ensuit que la stabilité de la marque dans les réponses ne peut être réduite à la simple présence de son nom dans les données d’apprentissage.

Ce qui reste incertain

La géométrie exacte de cette connaissance dans les systèmes commerciaux fermés est établie de façon moins fiable. Les travaux académiques montrent les mécanismes généraux, mais nous n’avons pas d’accès direct aux vecteurs internes ni aux règles d’assemblage propres à chaque plateforme.

Ce que cela change en pratique

Pour l’entreprise, cela signifie un passage du langage de l’« optimisation de texte » à celui de la forme épistémique : il faut suivre quelles propriétés de la marque sont extraites de manière stable, et lesquelles se disloquent ou se déforment.

Sources

[1] Geva M., Schuster R., Berant J., Levy O. Transformer Feed-Forward Layers Are Key-Value Memories. EMNLP, 2021
[2] Meng K., Bau D., Andonian A., Belinkov Y. Locating and Editing Factual Associations in GPT. NeurIPS, 2022
[3] Sakata M., Yokoi S., Heinzerling B., Ito T., Inui K. On Entity Identification in Language Models. Findings of ACL, 2025
[4] Wang M. et al. Knowledge Mechanisms in Large Language Models: A Survey and Perspective. EMNLP Findings, 2024
[5] Wang Y. et al. Factuality of Large Language Models: A Survey. EMNLP, 2024
[6] Yadav I., et al. External Knowledge Integration in Large Language Models: Survey, Methods, Challenges, and Future Directions. Semantic Web Journal, 2025
[7] Google Search Central. AI Features and Your Website. 2026

Matériaux connexes

Texte fondamental 7 min

Pourquoi une marque forte peut être invisible pour les systèmes d’IA

Explique le paradoxe central : une marque peut être bien connue des gens et en même temps peu distinguable pour l'IA au moment du choix réel.

Ouvrir le matériau →
Texte fondamental 7 min

De quelles sources l’IA tire son opinion sur la marque — et pourquoi le site ne tient pas le premier rôle

Les couches à partir desquelles l'IA compose son opinion sur une marque : le site propre, le contexte de recherche, les avis indépendants, les plateformes utilisateurs — et pourquoi le site n'est plus le seul arbitre.

Ouvrir le matériau →
Étape suivante

Comment cela se rapporte à AI100 en pratique

Si vous avez besoin non pas d'une vue d'ensemble mais d'un diagnostic spécifique pour votre marque, AI100 permet de vérifier comment le modèle perçoit l'entreprise dans les scénarios neutres de choix, quels concurrents se positionnent plus haut et quelles améliorations ont le plus de chances d'augmenter la visibilité.

Voir le rapport type