8 juin 20268 min

Quelles sources cite ChatGPT, vraiment (les données)

ChatGPT, Perplexity et Google AI ne citent pas au hasard. Ce que disent les études : Bing, earned media, schema. Avec les chiffres.

AEOChatGPTPerplexityearned mediacitations IA

Quelles sources cite ChatGPT, vraiment

Les moteurs de réponse IA (ChatGPT, Perplexity, Google AI Overviews) citent en très large majorité des sources tierces faisant autorité, presse, annuaires, comparateurs, communautés, encyclopédies, et non le site de la marque concernée. Les chiffres convergent : l'étude Seer Interactive (2024) montre que plus de 87 % des citations de SearchGPT et ChatGPT correspondent au top 10 Bing, et les données Peec AI (mars 2026) indiquent qu'environ 85 % des mentions de marque proviennent de pages tierces, pas du domaine propre. La conséquence est directe : bien se positionner pour la citation IA suppose autant de travail hors-site (autorité externe) que de travail on-site (format et balisage). Toute approche qui ne joue que sur votre propre site plafonne vite. Voici ce que disent les données, source par source, puis la nuance honnête qui empêche de surinterpréter.

Ce que ChatGPT va chercher : l'index Bing

ChatGPT ne lit pas le web en direct, il s'appuie sur une couche de recherche pour répondre aux questions d'actualité, et cette couche repose sur l'index Bing. L'étude de Seer Interactive, publiée en 2024 sur l'analyse de centaines de requêtes, a mesuré que plus de 87 % des citations renvoyées par SearchGPT et ChatGPT correspondent à des pages présentes dans le top 10 des résultats Bing. La citation IA et le classement Bing sont donc fortement corrélés.

La lecture opérationnelle est simple. Si vous n'êtes pas dans les dix premiers résultats Bing sur les requêtes de vos clients, votre probabilité d'être nommé par ChatGPT chute fortement. Or le classement Bing dépend de votre autorité perçue, donc des liens et des mentions que d'autres sites font de vous. On revient toujours au même point : l'autorité externe précède la citation. Travailler son référencement Bing n'est pas un détail technique, c'est une condition d'entrée.

Le biais earned media, mesuré secteur par secteur

Une étude publiée sur arXiv en 2025 (référence 2509.08919) a quantifié l'origine des citations des moteurs de réponse IA selon les secteurs, et le résultat est massif : entre 73 % et 92 % des sources citées sont de l'earned media, c'est-à-dire des contenus tiers (presse, articles d'autres acteurs, annuaires, comparateurs), et non le site de la marque. Le détail par secteur est parlant : environ 92 % en électronique grand public, environ 82 % dans l'automobile, environ 73 % dans le logiciel.

Le même travail note un contraste utile : Google reste plus équilibré, avec environ 33 % de citations vers le contenu de marque (brand) et environ 54 % vers l'earned media. Autrement dit, les moteurs purement génératifs penchent encore plus vers les sources tierces que la recherche Google classique. Pour une marque, cela signifie que miser uniquement sur son site revient à se battre pour la portion la plus étroite du gâteau. La majorité des citations se joue sur des pages que vous ne possédez pas, mais que vous pouvez influencer en provoquant des mentions crédibles.

Les domaines les plus cités : communautés et médias établis

Les données Peec AI de mars 2026, construites sur l'analyse d'environ 30 millions de sources, dessinent une carte claire des domaines les plus cités par les moteurs IA. En tête : Reddit, YouTube, LinkedIn, Wikipedia et Forbes. Ce sont des plateformes communautaires et des médias établis, pas des sites d'entreprise. Le même jeu de données confirme qu'environ 85 % des mentions de marque proviennent de pages tierces, et non du domaine propre de la marque.

Plus frappant encore : environ 48 % des citations viennent de plateformes communautaires (Reddit, forums, espaces de discussion). Près d'une citation sur deux se joue donc là où s'échangent des avis réels, pas dans les pages produit léchées. Cela ne veut pas dire qu'il faut spammer Reddit, ce serait contre-productif et souvent sanctionné. Cela veut dire que votre présence dans les conversations de votre marché, de façon honnête et utile, pèse dans ce que les modèles considèrent comme une source fiable. La citation IA récompense la trace que vous laissez dans l'écosystème, pas seulement la vitrine que vous contrôlez.

Perplexity : le schema compte, les backlinks beaucoup moins

Le cas de Perplexity apporte une nuance technique précieuse. Les analyses disponibles montrent que la présence de balisage schema.org JSON-LD est associée à un taux de citation en top 3 nettement supérieur. Donner au moteur une lecture explicite et structurée de vos questions et réponses augmente sa confiance et sa capacité à vous réutiliser dans la réponse générée.

À l'inverse, les backlinks ne prédisent quasiment pas les citations sur Perplexity : la majorité des pages effectivement citées ont peu de domaines référents. Ce constat surprend ceux qui raisonnent en logique SEO classique, où le profil de liens reste un signal central. Sur Perplexity, le moteur semble privilégier la pertinence et la structure du contenu sur la popularité mesurée en liens. La leçon n'est pas que les liens ne servent à rien ailleurs (ils nourrissent l'autorité Bing dont dépend ChatGPT), mais que selon le moteur visé, les leviers ne sont pas les mêmes. On ne joue pas Perplexity comme on joue ChatGPT. Nous détaillons les mécanismes propres à ce moteur dans notre guide être cité par Perplexity.

La nuance honnête : le bottom-of-funnel change la donne

Il serait malhonnête de s'arrêter à "tout se joue sur Reddit et Wikipedia". Search Engine Land a documenté une nuance importante : sur les requêtes de bas de tunnel (bottom-of-funnel), du type "meilleur logiciel pour X" ou "quelle solution pour Y", le poids de Reddit et Wikipedia chute nettement. Sur ces requêtes à intention d'achat, les moteurs s'appuient davantage sur des publications de niche spécialisées et sur la profondeur du contenu propre des acteurs du marché.

Cela rééquilibre le tableau. Votre site n'est pas inutile, loin de là : sur les requêtes où un prospect compare des solutions précises, un contenu propre dense, structuré et expert peut être cité directement. Mais cela ne contredit pas le constat général. Le contenu on-site est nécessaire et non suffisant. Il faut les deux : un site qui répond en profondeur aux questions de fin de parcours, et une autorité externe qui vous fait exister sur les requêtes plus larges où dominent les sources tierces. Comprendre pourquoi votre site seul ne suffit pas est le point de départ : nous l'expliquons dans pourquoi votre entreprise n'apparaît pas dans ChatGPT.

Ce que les chiffres imposent comme stratégie

Levier	Ce que disent les données	Effet attendu
Format answer-first on-site	Facteur n°1 de citation Perplexity, profondeur clé en bottom-of-funnel	Extraction directe par le modèle
Schema JSON-LD	Corrélé à un meilleur taux de citation top 3 (Perplexity)	Lecture machine fiabilisée
Autorité externe / earned media	73 à 92 % des citations selon secteur (arXiv 2509.08919)	Présence sur les requêtes larges
Présence communautaire	Environ 48 % des citations en plateformes communautaires (Peec AI)	Source jugée fiable par les modèles
Backlinks	Quasiment non prédictifs sur Perplexity	Effet indirect via Bing

La stratégie gagnante combine deux fronts. Sur votre site : un format answer-first (réponse directe en tête, développement ensuite), un balisage schema propre, un contenu de fond dense sur les vraies questions de votre marché. Hors de votre site : un travail d'autorité externe, presse, listes et comparateurs sectoriels, présence honnête dans les communautés. Aucun de ces deux fronts ne suffit seul.

Nous ne vendons aucune garantie de citation. Personne hors des éditeurs de modèles ne contrôle la sortie finale, et les chiffres ci-dessus sont des moyennes qui varient selon le secteur, le moteur et la requête. Ce que nous travaillons, c'est une probabilité d'être cité, en posant méthodiquement les signaux que les données désignent comme déterminants, puis en la mesurant chaque mois avec des captures datées. Notre diagnostic de visibilité IA mesure où vous en êtes sur ces signaux, gratuitement.

Questions fréquentes

ChatGPT invente-t-il ses sources ?

ChatGPT peut produire des citations inexactes ou inventées (hallucinations), mais ses citations actives en mode recherche s'appuient majoritairement sur des pages réelles issues de l'index Bing : l'étude Seer Interactive (2024) mesure que plus de 87 % de ces citations correspondent au top 10 Bing. Le risque d'invention concerne surtout les réponses générées sans couche de recherche active. Quand le moteur cite une URL en mode recherche, elle pointe en général vers une source existante, même si elle reste à vérifier.

Les backlinks comptent-ils pour la citation IA ?

Pas directement, ou beaucoup moins qu'en SEO classique. Sur Perplexity, les backlinks ne prédisent quasiment pas les citations, et la majorité des pages citées ont peu de domaines référents. Les liens gardent un rôle indirect : ils nourrissent l'autorité perçue qui alimente le classement Bing, dont ChatGPT tire plus de 87 % de ses citations selon Seer Interactive (2024). Ne misez pas votre stratégie de citation IA sur l'acquisition de liens seule, c'est un levier indirect, pas le facteur central.

Faut-il être présent sur Reddit et Wikipedia ?

C'est utile, sans être une obligation absolue. Les données Peec AI (mars 2026, environ 30 millions de sources) placent Reddit et Wikipedia parmi les domaines les plus cités, et environ 48 % des citations viennent de plateformes communautaires. Une présence honnête et utile dans ces espaces renforce votre trace dans l'écosystème. Attention : sur les requêtes de bas de tunnel ("meilleur logiciel pour X"), le poids de Reddit et Wikipedia chute au profit de publications de niche, d'après Search Engine Land. Adaptez selon vos requêtes cibles, ne spammez jamais ces plateformes.

Le schema JSON-LD change-t-il vraiment quelque chose ?

Oui sur Perplexity, où la présence de balisage schema.org JSON-LD est associée à un taux de citation en top 3 nettement supérieur. Le schema donne au moteur une lecture explicite de vos questions et réponses, ce qui fiabilise sa réutilisation de votre contenu. Mais le schema ne crée pas d'autorité : il rend lisible un contenu qui doit déjà être bon et corroboré ailleurs. C'est un signal nécessaire, pas suffisant à lui seul.

Mon propre site suffit-il à être cité ?

Non, dans la grande majorité des cas. Les données convergent : 73 à 92 % des citations selon le secteur sont de l'earned media (arXiv 2509.08919, 2025), et environ 85 % des mentions de marque viennent de pages tierces, pas du domaine propre (Peec AI, mars 2026). Votre site reste nécessaire, surtout sur les requêtes de bas de tunnel où la profondeur du contenu propre pèse, mais il n'est pas suffisant. Il faut le combiner à un travail d'autorité externe pour exister sur l'ensemble des requêtes.

François Kerjean · NovAI← Retour au Journal