Pourquoi votre IA vous ment-elle ? La vérité sur les hallucinations des modèles de langage (+ prompt pour lui admettre de dire je ne sais pas)

Vous avez déjà posé une question simple à une intelligence artificielle et obtenu une réponse incroyablement détaillée, plausible… et complètement fausse ? Ce phénomène, baptisé “hallucination”, est l’un des plus grands défis pour la fiabilité des IA. On pourrait croire à un bug, à une sorte de folie numérique. Mais si le problème était plus profond, inscrit au cœur même de la manière dont ces modèles apprennent ? Une étude fascinante publiée par des chercheurs d’OpenAI et de Georgia Tech lève le voile sur ce mystère. Loin d’être une anomalie, l’hallucination serait une conséquence logique et statistique de leur entraînement. Décryptons ensemble pourquoi votre IA préfère parfois inventer plutôt que d’avouer son ignorance.

En bref

Un problème statistique : Les hallucinations ne sont pas un “bug”, mais une conséquence mathématique de la façon dont les IA sont entraînées à prédire du texte.
Le dilemme de l’étudiant : Les modèles de langage sont évalués comme des étudiants passant un examen. Sans malus pour une mauvaise réponse, il est plus “rentable” de deviner que de rendre une copie blanche.
L’entraînement initial en cause : Même avec des données d’entraînement parfaites, le processus de pré-entraînement pousse statistiquement les modèles à générer des erreurs pour optimiser leurs objectifs.
Des évaluations inadaptées : La majorité des benchmarks actuels pénalisent les réponses comme “Je ne sais pas”, renforçant ainsi la tendance des IA à “bluffer”.
La solution : Pour créer des IA plus fiables, il faut changer les règles du jeu en modifiant la notation des évaluations pour récompenser l’honnêteté intellectuelle.

Sommaire

Qu’est-ce qu’une “hallucination” pour une IA ?
Pourquoi les IA hallucinent-elles dès leur entraînement initial ?
Les données d’entraînement sont-elles les seules responsables ?
Pourquoi le “réglage fin” ne corrige-t-il pas ce problème ?
Comment peut-on apprendre à une IA à dire “je ne sais pas” ?
En tant qu’utilisateur, que puis-je faire pour limiter les hallucinations ?

Qu’est-ce qu’une “hallucination” pour une IA ?

Une hallucination, pour une intelligence artificielle, est la génération d’une information qui semble factuelle et cohérente, mais qui est en réalité incorrecte, inventée ou non fondée sur les données d’entraînement du modèle. Il ne s’agit pas d’une expérience perceptive comme chez l’humain, mais d’une erreur de production de texte.

Définition : Hallucination d’IA

En intelligence artificielle, une hallucination (ou confabulation) est une erreur où un modèle de langage (LLM) produit une réponse affirmative et plausible qui n’est pas justifiée par ses données d’apprentissage. Le modèle “invente” des faits, des citations ou des détails au lieu d’admettre qu’il ne possède pas l’information demandée. Par exemple, citer une étude scientifique qui n’a jamais existé pour appuyer un argument.

L’étude d’OpenAI prend un exemple frappant. En demandant la date d’anniversaire d’un des auteurs, un LLM de pointe a fourni trois dates différentes et incorrectes lors de trois tentatives. Un autre exemple concernait le titre de la thèse de ce même auteur, où ChatGPT (GPT-4o), DeepSeek et Llama ont tous donné des titres, des années et des universités erronés. Ces modèles n’ont pas dit “Je ne sais pas”, ils ont préféré générer une réponse crédible mais fausse.

Pourquoi les IA hallucinent-elles dès leur entraînement initial ?

Les IA hallucinent dès leur phase de pré-entraînement car leur objectif statistique fondamental n’est pas de “dire la vérité”, mais d’apprendre la distribution probable du langage. Cet objectif les pousse inévitablement à combler les lacunes de leurs connaissances en générant du texte plausible, ce qui crée des erreurs factuelles.

Pour le comprendre, les chercheurs proposent une analogie simple : imaginez que la tâche de générer une phrase correcte est plus difficile que de simplement répondre “oui” ou “non” à la question : “Cette phrase est-elle valide ?”. Ils montrent que si un modèle est incapable de parfaitement distinguer une affirmation valide d’une erreur, il finira par générer des erreurs lui-même. C’est une pression statistique naturelle. Durant le pré-entraînement, le modèle est bombardé de téraoctets de textes et apprend les schémas, les structures et les liens entre les mots. Son but est de minimiser une “perte” (cross-entropy loss), c’est-à-dire de devenir très bon pour prédire le mot suivant. Ce processus le rend “calibré” : la probabilité qu’il associe à une phrase reflète bien sa fréquence dans les données. Et c’est là que le bât blesse : cette calibration, qui est une conséquence directe de l’entraînement, est mathématiquement liée à la production d’erreurs.

Les données d’entraînement sont-elles les seules responsables ?

Non, même avec un corpus de données d’entraînement entièrement factuel et sans erreur, les modèles de langage seraient quand même sujets aux hallucinations. Le problème vient moins de la qualité des données que des mécanismes statistiques de l’apprentissage lui-même.

L’étude souligne plusieurs facteurs qui expliquent pourquoi les erreurs surviennent indépendamment de la présence de “déchets” dans les données (le fameux principe “Garbage In, Garbage Out”) :

Ne manquez pas:

Les faits arbitraires et rares : Pensez aux dates de naissance de personnes peu connues. Si une information n’apparaît qu’une seule fois dans l’immense corpus d’entraînement (ce que les chercheurs appellent un “singleton”), le modèle aura du mal à la mémoriser de manière fiable. L’étude établit un lien direct : le taux d’hallucination attendu sur ces faits rares est au moins égal à la proportion de ces faits “singletons” dans les données.
Les modèles inadaptés : Parfois, l’architecture même du modèle n’est pas la bonne pour une tâche spécifique. L’exemple donné est celui de compter les lettres dans un mot. Des modèles comme DeepSeek-V3 échouaient à compter le nombre de “D” dans “DEEPSEEK”, probablement car ils traitent le texte via des “tokens” (morceaux de mots) et non lettre par lettre. Un modèle plus apte au raisonnement, comme DeepSeek-R1, réussit la tâche. C’est comme essayer de visser avec un marteau : l’outil n’est pas adapté.
La complexité calculatoire : Certaines questions, comme déchiffrer un message crypté sans la clé, sont mathématiquement très difficiles. Un LLM, aussi puissant soit-il, ne peut pas violer les lois de la complexité. Face à une telle tâche, il est statistiquement plus probable qu’il génère une réponse erronée plutôt que la bonne solution.

Pourquoi le “réglage fin” ne corrige-t-il pas ce problème ?

Le réglage fin (post-training), comme le RLHF (Reinforcement Learning from Human Feedback), ne corrige pas fondamentalement le problème des hallucinations car la plupart des méthodes d’évaluation actuelles récompensent le “bluff”. Les modèles sont optimisés pour réussir des tests qui pénalisent l’aveu d’incertitude.

C’est ici que l’analogie de l’étudiant face à un examen prend tout son sens. Imaginez un QCM où une bonne réponse vaut 1 point, et une mauvaise réponse ou l’absence de réponse vaut 0 point. Quelle est la meilleure stratégie si vous hésitez ? Tenter votre chance ! Une supposition, même hasardeuse, a une chance de rapporter un point, alors que l’abstention garantit un zéro. Les IA sont dans cette situation en permanence.

Le fléau de la notation binaire

La grande majorité des benchmarks qui font autorité dans le monde de l’IA (MMLU-Pro, GPQA, SWE-bench…) fonctionnent sur ce principe de notation binaire (vrai/faux). Un modèle qui répond systématiquement “Je ne sais pas” obtiendra un score catastrophique, même s’il ne se trompe jamais. À l’inverse, un modèle qui “hallucine” mais qui, par chance, tombe juste de temps en temps, obtiendra un meilleur score. Les créateurs d’IA, cherchant à grimper dans les classements, sont donc incités à optimiser leurs modèles pour qu’ils soient de “bons candidats aux examens”, quitte à ce qu’ils deviennent des bluffeurs invétérés.

Le problème est donc socio-technique. Tant que la communauté de l’IA continuera de valoriser principalement les performances sur ces tests, elle encouragera indirectement la production d’hallucinations. Le système actuel est biaisé en faveur de la confiance excessive.

Comment peut-on apprendre à une IA à dire “je ne sais pas” ?

Pour apprendre à une IA à dire “je ne sais pas”, il faut changer la manière dont on l’évalue en introduisant un système de notation qui ne pénalise plus l’incertitude. La solution proposée par les chercheurs est d’intégrer des “cibles de confiance” et des pénalités pour les erreurs directement dans les évaluations existantes.

Plutôt que de créer de nouveaux tests spécifiques aux hallucinations, qui risquent d’être ignorés au profit des benchmarks plus populaires, l’idée est de modifier les règles des tests existants. Par exemple, on pourrait ajouter aux instructions d’une question :

“Ne répondez que si vous êtes sûr de votre réponse à plus de 90%. Une réponse correcte vaut 1 point, ‘Je ne sais pas’ vaut 0 point, et une erreur vous coûtera 9 points.”

Avec de telles règles, le calcul stratégique du modèle change radicalement. Le “bluff” devient extrêmement risqué. Le modèle est alors incité à développer une meilleure conscience de sa propre incertitude et à l’exprimer honnêtement. Cette transparence dans les règles d’évaluation permettrait de comparer objectivement les modèles sur leur capacité à être fiables, et non plus seulement sur leur capacité à accumuler des points par tous les moyens. C’est un pas essentiel pour orienter le domaine vers des systèmes d’IA plus dignes de confiance.

En tant qu’utilisateur, que puis-je faire pour limiter les hallucinations ?

En tant qu’utilisateur, vous pouvez limiter les hallucinations en donnant des instructions claires au modèle pour qu’il admette son incertitude. Le “prompting” est un outil puissant pour guider le comportement de l’IA et la pousser vers plus de prudence et d’honnêteté.

Même si les changements profonds doivent venir des créateurs et des évaluateurs d’IA, vous avez un certain contrôle. En intégrant une simple phrase dans vos requêtes, vous pouvez modifier le “calcul coût-bénéfice” du modèle pour une réponse donnée. Au lieu de le laisser libre de deviner, vous lui fixez une contrainte de fiabilité.

Exemple : Prompt pour réduire les hallucinations


[Votre question ici...]

Si tu n'es pas certain de ta réponse ou si tu ne connais pas l'information, dis clairement que tu ne sais pas.

L’étude d’OpenAI et Georgia Tech démystifie brillamment le phénomène des hallucinations. Non, les IA ne “deviennent pas folles” ou ne “mentent” pas intentionnellement. Elles se comportent simplement comme des systèmes statistiques optimisés pour un jeu dont les règles actuelles favorisent le bluff et la sur-confiance. Les hallucinations sont le symptôme d’un désalignement entre ce que nous attendons d’elles (la vérité, la fiabilité) et ce pour quoi nous les récompensons (le succès à des tests binaires). La prise de conscience de ce problème est la première étape. La seconde, plus cruciale, sera pour la communauté de l’IA d’adopter des méthodes d’évaluation qui valorisent l’honnêteté intellectuelle. Ce n’est qu’à ce prix que nous pourrons bâtir des intelligences artificielles véritablement dignes de confiance, capables non seulement de répondre, mais aussi d’avoir la sagesse de dire : “Je ne sais pas”.

Source : https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

5/5 - (1 vote)