

Les hallucinations des intelligences artificielles (IA) représentent un défi majeur dans le développement et l'utilisation des modèles de langage actuels. Ces erreurs, où une IA génère des informations fausses ou trompeuses tout en les présentant comme factuelles, soulèvent des questions cruciales sur la fiabilité et l'éthique de ces technologies.
I-🧠 Qu'est-ce qu'une hallucination d'IA ?
🔍 Définition
Une hallucination d’intelligence artificielle désigne une réponse produite par un modèle d’IA générative (notamment les grands modèles de langage ou LLM) qui est incorrecte, fausse ou déconnectée de la réalité, mais formulée de manière cohérente, crédible et parfois très convaincante.
Autrement dit, le modèle invente de toute pièce une information (un fait, un événement, une citation, une personne, une source) ou commet une erreur grave de raisonnement, tout en donnant l’illusion qu’il sait de quoi il parle.
💬 « L’IA hallucine lorsqu’elle produit du faux avec l’assurance du vrai. »
🧬 Origine du terme « hallucination »
Le terme est une métaphore empruntée aux sciences cognitives. Dans le domaine médical, une hallucination est une perception sans objet réel, comme voir ou entendre quelque chose qui n'existe pas. Par analogie, l’IA “perçoit” ou “rappelle” des faits inexistants.
Ce concept a été adopté dans la recherche en traitement automatique du langage dès les premières observations de dérives dans les résumés automatiques ou les réponses générées par des systèmes comme GPT-2 et BERT.
📚 Premières apparitions dans la littérature scientifique
🔠 Différents types d’hallucinations
Les hallucinations peuvent être classées selon leur gravité et leur nature :
|
Type d’hallucination |
Description |
Exemple |
|
Factuelle |
Le modèle fournit une information erronée |
“Le GIEC a été fondé en 1985” (au lieu de 1988) |
|
Contextuelle |
Mauvaise interprétation du contexte ou de la question |
Répond à côté ou mélange deux sujets |
|
Citation inventée |
Fausse citation attribuée à une personne réelle |
“Comme disait Victor Hugo : ‘L’IA est l’avenir de l’homme’.” |
|
Source fictive |
Le modèle invente un article, un livre, ou un auteur |
“Selon l’étude de John Millward en 2019...” (aucune trace) |
|
Raisonnement faux |
Erreur logique dans une démonstration |
Prémisses vraies mais conclusion incorrecte |
|
Entité inventée |
Création de noms, produits, lieux qui n’existent pas |
“La société GreenPowerTech est leader mondial” (fictive) |
II-🧠 Pourquoi les modèles hallucinent-ils ?
Ce phénomène résulte de la nature même de l’apprentissage des LLM, qui sont formés pour prédire le mot suivant dans une séquence, en maximisant la vraisemblance statistique. Ils n’ont ni mémoire fiable, ni vérification des faits intégrée, ni compréhension du monde.
Par conséquent, ils peuvent générer :
1-🧠 Hallucination vs. mensonge vs. Erreur (cf. 6)
Il est essentiel de distinguer l’hallucination d'autres concepts :
|
Terme |
Intention |
Connaissance du vrai |
Exemples |
|
Hallucination (IA) |
❌ Aucune |
❌ Aucune |
Crée une fausse source |
|
Mensonge (humain) |
✅ Délibérée |
✅ Oui |
Falsifier un témoignage |
|
Erreur (IA ou humain) |
❌ Involontaire |
✅/❌ Partielle |
Mauvais calcul ou confusion |
Une hallucination n’est pas un mensonge, car l’IA n’a pas d’intention ni de conscience du vrai. C’est une erreur de génération invisible pour le modèle lui-même.
🧪 Exemples concrets
✅ Réponse correcte :
“Le vaccin contre la rage a été mis au point par Louis Pasteur en 1885.”
✔️ Historique et factuel, vérifiable dans les sources.
❌ Hallucination :
“Le vaccin contre la rage a été inventé par Claude Bernard en 1872.”
✖️ Fausse attribution, date incorrecte, formulation plausible.
❌ Hallucination contextuelle :
Question : “Qui a peint La Joconde ?”
Réponse : “La Joconde est une ville de Toscane connue pour son vin rouge.”
✖️ Mélange sémantique : confusion entre sujet et lieu.
🔁 Hallucinations dans d’autres IA (multimodalité)
Le phénomène dépasse les modèles textuels :
⚠️ Pourquoi c’est problématique ?
Parce que la forme masque le fond : les réponses sont souvent bien rédigées, ce qui peut tromper les utilisateurs peu attentifs ou non-experts, avec des conséquences graves dans :
🎓 Vers une définition opérationnelle
Pour les concepteurs d’IA, une hallucination est :
Toute sortie générée par le modèle qui contient une information non factuelle, non sourcée, ou non présente dans les données initiales, sans avertissement explicite à l’utilisateur.
2. Origine du terme et historique
Le concept d’hallucination est apparu dans la littérature scientifique sur les modèles de génération de texte dès 2018 avec les travaux sur les résumés automatiques, où les modèles "fabriquaient" parfois des faits non présents dans les documents sources (Maynez et al., 2020).
Depuis, le terme est largement utilisé dans les domaines suivants :
🔎 Référence scientifique : Maynez, J., Narayan, S., Bohnet, B., & McDonald, R. (2020). On Faithfulness and Factuality in Abstractive Summarization. ACL 2020.
3. Types d’hallucinations d’IA
Les hallucinations ne sont pas toutes identiques. On distingue plusieurs formes selon le niveau de gravité et de déconnexion avec les données sources.
🟢 Hallucinations mineures (imprécisions)
🟡 Hallucinations modérées (fabrication partielle)
🔴 Hallucinations graves (fabulations complètes)
4. Exemples concrets d’hallucination
✅ Exemple véridique :
« Le vaccin contre la variole a été développé par Edward Jenner en 1796. »
✔️ Information exacte, datée, vérifiable.
❌ Exemple hallucinatoire :
« Le vaccin contre la variole a été développé par Louis Pasteur en 1865. »
🔴 Faux historique, plausible mais erroné : Pasteur est associé aux vaccins, mais pas à celui de la variole.
❌ Exemple de fabrication :
« Selon l’article du New York Times publié en 2003, la NASA aurait déjà exploré Encelade. »
🔴 Article inventé, aucun lien factuel n’existe.
❌ Exemple de “citation hallucinée” :
« Comme l’a dit Simone de Beauvoir : ‘L’intelligence artificielle est la dernière invention de l’homme.’ »
🔴 Citation imaginaire, jamais prononcée ni publiée par la philosophe.
5. Hallucinations multimodales et dans d’autres domaines
Les hallucinations ne concernent pas que le texte :
6. Différence avec l'erreur ou le mensonge (cf.1)
L’hallucination d’IA n’est ni un mensonge, ni une erreur intentionnelle. Elle résulte d’un fonctionnement probabiliste et non d’un raisonnement logique ou d’une volonté de tromper.
|
Concept |
Intentionnelle ? |
Lié au raisonnement ? |
Fiabilité ? |
|
Hallucination IA |
❌ Non |
❌ Non |
❌ Faible à moyenne |
|
Mensonge humain |
✅ Oui |
✅ Oui |
❌ Variable |
|
Erreur humaine |
❌ Non |
✅ Oui |
❌ Variable |
7. Un défi structurel pour l’IA moderne
Les hallucinations posent un défi majeur pour l’adoption massive des technologies d’IA :
III-⚙️ Pourquoi les IA hallucinent-elles ?
1. Fondement probabiliste des LLM : la prédiction statistique avant tout
Les grands modèles de langage (LLM) comme GPT-4, Claude ou Gemini sont entraînés à prédire la prochaine unité linguistique (mot, sous-mot ou token) à partir d'une séquence de texte. Cette approche repose sur le modèle autoregressif, où chaque nouveau mot est généré sur la base de la probabilité qu'il suive la séquence précédente, selon ce que le modèle a appris lors de son entraînement.
Problème : cette méthode n’a pas pour objectif de rechercher la vérité factuelle, mais de produire du texte plausible. Une hallucination survient donc lorsque :
🧪 Exemple : à la question “Qui a découvert Neptune ?”, un LLM peut répondre “Galilée” s’il n’a pas bien appris la séquence historique correcte, car Galilée est souvent associé aux découvertes astronomiques et est statistiquement lié à ce contexte.
2. Pas de compréhension ni de perception du monde réel
Les IA actuelles, même les plus avancées, ne disposent pas de modèle mental du monde. Elles ne comprennent pas ce qu'elles disent : elles manipulent des symboles (les mots) mais ne les rattachent à aucune expérience sensorielle, physique ou concrète.
Cela signifie que :
En d’autres termes, elles sont aveugles à la vérité, car elles raisonnent exclusivement en corpus de textes, non en faits.
3. Qualité, biais et bruit des données d'entraînement
Les modèles sont formés sur des jeux de données gigantesques, composés d’articles de presse, de livres, de forums, de documents techniques, de sites web, etc. Si ces sources :
… alors les hallucinations peuvent être apprises.
📊 Selon un article de Nature Machine Intelligence (2023), environ 30 à 40 % des contenus web accessibles librement contiennent des imprécisions factuelles ou des spéculations présentées comme vraies, ce qui peut contaminer l’apprentissage des LLM.
4. Questions mal posées, ambiguës ou peu documentées
Lorsqu’un utilisateur pose une question :
le modèle est contraint de “deviner” la réponse. Cela accroît mécaniquement le risque d'hallucination.
🧪 Exemple : demander à une IA “Quels sont les romans écrits par Einstein ?” (alors qu’il n’en a jamais écrit) la pousse souvent à halluciner des titres plausibles, car elle cherche à satisfaire la requête.
5. Instructions floues ou contradictions dans les consignes
Les systèmes de type "chatbot" sont souvent optimisés pour la convivialité et la complaisance, c’est-à-dire pour fournir une réponse engageante même quand la question est absurde ou contradictoire.
Cela vient en partie du mécanisme de "reinforcement learning with human feedback" (RLHF), où les IA apprennent à être utiles et polies — parfois au détriment de la rigueur.
6. Limitations de la mémoire contextuelle
Même les modèles modernes ont des limitations de mémoire contextuelle : ils ne peuvent gérer qu’un certain nombre de tokens à la fois (par exemple, 8 000, 32 000 ou 128 000 tokens). Si une réponse nécessite des références à des informations plus anciennes dans la conversation, ou à des documents longs, le modèle peut halluciner faute de contexte complet.
7. Hallucinations dans l’usage de plugins, navigateurs ou outils externes
Certains modèles sont connectés à des sources d’information externes (navigateurs web, bases de données, plugins). Des hallucinations peuvent se produire lorsque :
8. Influence du “prompt engineering”
Le formalisme et la précision du prompt ont un impact direct sur la fiabilité des réponses. Un prompt flou ou manipulable augmente le taux d’hallucination.
📌 Étude de Salesforce (2023) : les réponses hallucinées sont 2 à 3 fois plus fréquentes lorsque les utilisateurs demandent des résumés ou des synthèses “courtes et simples” par rapport à des consignes structurées avec cadre, source et contexte défini.
9. Le rôle de la température
Les modèles peuvent générer des réponses plus ou moins aléatoires selon le paramètre de “température”, une variable qui influence le degré de diversité dans la prédiction. Une température élevée (ex : 0.8) favorise la créativité, mais aussi les hallucinations. Une température basse (ex : 0.2) produit des réponses plus conservatrices mais plus fiables.
10. Conclusion : une fonction, pas un bug
L’hallucination n’est pas un dysfonctionnement accidentel, mais un effet secondaire prévisible du mode de fonctionnement des IA génératives. Elle traduit le compromis entre :
Elle doit être gérée par des garde-fous techniques, une validation humaine et une bonne maîtrise du prompt.
IV-🧪 Exemples notables d'hallucinations
Les hallucinations d’IA ne sont pas anecdotiques : elles se produisent régulièrement, y compris dans les produits développés par les géants du secteur. Voici une sélection d’exemples emblématiques, classés par type de modèle et cas d’usage.
🔹 1. Google Bard (rebaptisé Gemini)
📅 Date : Février 2023
📌 Contexte : Google présente son modèle de langage Bard dans une vidéo promotionnelle destinée à concurrencer ChatGPT. L’extrait montre Bard répondant à la question :
“Quelles nouvelles découvertes du télescope James Webb puis-je raconter à mon enfant de 9 ans ?”
🧠 Réponse hallucinée : Bard affirme que le télescope James Webb a capturé les toutes premières images d'une planète située hors de notre système solaire.
📉 Réalité : Cette affirmation est incorrecte. Les premières images d’exoplanètes ont été captées par d’autres instruments comme le Very Large Telescope (VLT) bien avant le JWST. Bard a confondu la première observation directe d’une exoplanète par James Webb avec la première image d’exoplanète tout court.
📣 Conséquence : L’action de Google a chuté de 100 milliards de dollars en bourse après la diffusion de cette erreur. Elle a soulevé des doutes sur la fiabilité du modèle et sur le degré de préparation du produit au moment du lancement.
🔹 2. ChatGPT (OpenAI)
🧑⚖️ Cas judiciaire fictif cité par erreur
📅 Date : Mai 2023
📌 Contexte : Deux avocats new-yorkais utilisent ChatGPT pour préparer un mémoire juridique dans un dossier aérien.
🧠 Hallucination : Le modèle fournit une série de décisions judiciaires censées appuyer leur argumentation. Or, plusieurs de ces décisions n’ont jamais existé.
📉 Conséquence : Les avocats ont été sanctionnés pour "avoir soumis de fausses citations", ce qui a provoqué une tempête médiatique. Cela a mis en lumière les dangers d’un usage non vérifié de l’IA dans le secteur juridique.
📚 Citation inventée dans un devoir étudiant
📌 Contexte : Un étudiant demande à ChatGPT une citation de Simone de Beauvoir sur l’intelligence artificielle.
🧠 Hallucination : ChatGPT génère une citation fictive et la crédite à l’autrice. Aucune trace de cette citation n’existe dans ses œuvres ou ses interviews.
🎓 Problème : L’étudiant l’utilise dans une dissertation sans vérification. La citation est détectée par un enseignant attentif, révélant une confiance aveugle envers l’outil.
🔹 3. Meta / Galactica (modèle suspendu)
📅 Date : Novembre 2022
📌 Contexte : Meta lance Galactica, un modèle de langage conçu pour produire des textes scientifiques.
🧠 Hallucination : Lorsqu’on lui demande des résumés d’articles ou des références, Galactica invente :
📉 Conséquence : Le modèle est retiré du web en moins de 3 jours, suite à des critiques massives sur sa dangerosité en matière de désinformation académique.
🔹 4. Gemini (Google), version 2024
🍕 La recette hallucinée à la colle
📌 Contexte : Un utilisateur demande des astuces pour éviter que le fromage de sa pizza ne glisse.
🧠 Réponse : Gemini suggère d’ajouter de la colle à la pâte pour mieux faire adhérer le fromage. Cette réponse est basée sur une blague lue sur Reddit, mal interprétée comme un conseil culinaire réel.
💡 Analyse : Le modèle a confondu l’intention humoristique d’un post communautaire avec un contenu sérieux, faute de discernement contextuel.
🔹 5. Bing Chat / Copilot (Microsoft)
🎬 Films fictifs inventés
📌 Contexte : Des utilisateurs demandent une liste de films sur un thème donné.
🧠 Réponse : Le chatbot fournit des titres de films totalement inventés, avec synopsis et acteurs fictifs, présentés comme réels.
🎭 Implication : Cela souligne l’incapacité de certains modèles à détecter les limites de leur base de connaissances, surtout lorsqu’ils ont été entraînés sur des corpus comprenant des fictions, scripts inédits ou fan-fictions.
🔹 6. ChatGPT & mathématiques
➗ Résolution erronée d’équations ou démonstrations inventées
📌 Problème : ChatGPT, même dans ses versions avancées, génère parfois :
📉 Impact : Dans un cadre éducatif ou scientifique, cela peut induire des erreurs graves si les réponses ne sont pas validées manuellement.
✅ Enseignements de ces exemples
|
Exemple |
Type d’erreur |
Gravité |
Contexte critique |
|
Bard & JWST |
Fausse attribution |
⚠️ Moyenne |
Communication scientifique |
|
ChatGPT & droit |
Jurisprudence inventée |
🔴 Haute |
Justice / droit |
|
Galactica |
Références fictives |
🔴 Haute |
Recherche académique |
|
Gemini & colle |
Source mal interprétée |
⚠️ Moyenne |
Cuisine, grand public |
|
Bing Chat |
Œuvres fictives |
⚠️ Moyenne |
Divertissement |
V-🧭 Conséquences et risques
Les hallucinations des IA, lorsqu’elles ne sont pas détectées ou corrigées, peuvent avoir des effets délétères dans de nombreux secteurs. Elles remettent en cause la fiabilité, l’utilité pratique et l’acceptabilité sociale des technologies d’intelligence artificielle générative. Les risques vont bien au-delà de la simple inexactitude : ils touchent à la désinformation, à la sécurité, à l’éthique, à la santé publique et au droit.
1. Désinformation à grande échelle
Les hallucinations peuvent entraîner la diffusion massive de fausses informations, parfois difficiles à détecter.
🔎 Exemple : une IA pourrait “créer” une déclaration historique d’un dirigeant politique inexistante, qui serait ensuite citée dans des articles, vidéos ou débats.
2. Risques dans le domaine médical
Le domaine de la santé est particulièrement sensible aux erreurs générées par les IA :
🧪 En 2023, l’hôpital de San Francisco a suspendu un test de rédaction automatisée de comptes rendus après que l’IA a inventé des antécédents médicaux chez un patient cancéreux.
3. Problèmes juridiques et responsabilités
Les hallucinations dans le domaine juridique ou administratif peuvent générer :
Cela soulève une question cruciale : qui est responsable en cas de contenu faux généré par une IA ?
⚖️ En juin 2023, un juge américain a ordonné une audience disciplinaire contre deux avocats ayant utilisé ChatGPT pour citer six affaires inventées.
4. Perte de crédibilité des IA
Si les utilisateurs détectent trop souvent des réponses erronées, la confiance dans les IA chute rapidement. Cela peut freiner leur adoption dans des domaines clés comme :
🗣️ Un rapport de Pew Research (2024) montre que 63 % des utilisateurs américains ayant repéré une erreur dans un chatbot disent avoir réduit ou cessé son usage.
5. Risques en entreprise (documents internes, emails, rapports)
Les entreprises intégrant les LLM dans leurs workflows (génération d’emails, synthèses de réunions, notes de direction) s’exposent à :
Cela peut conduire à des mauvaises décisions stratégiques, des litiges avec des partenaires ou une communication erronée en externe.
6. Manipulations malveillantes / usage criminel
Les hallucinations peuvent aussi être exploitées délibérément :
7. Effets sur l’éducation et la connaissance
Dans les systèmes éducatifs, les IA sont déjà utilisées pour :
Les hallucinations peuvent donc conduire à :
📚 Selon un rapport de l’UNESCO (2023), 45 % des enseignants interrogés en Europe expriment des inquiétudes fortes sur la qualité et la véracité des contenus générés par IA dans les devoirs d’élèves.
✅ Synthèse : tableau des risques
|
Domaine |
Type de risque |
Gravité |
Conséquence possible |
|
Médical |
Diagnostic erroné |
🔴 Haute |
Danger pour la santé, traitements incorrects |
|
Juridique |
Faux jugements ou lois fictives |
🔴 Haute |
Décisions invalides, sanctions, litiges |
|
Éducation |
Apprentissage biaisé |
🟠 Moyenne |
Fausses connaissances, perte de rigueur |
|
Média / désinformation |
Propagation virale de faussetés |
🔴 Haute |
Influence sur l’opinion publique |
|
Entreprise |
Mauvaise synthèse ou rapport |
🟠 Moyenne |
Mauvaise décision stratégique |
|
Grand public |
Conseils absurdes (recettes, santé) |
🟠 Moyenne |
Accidents domestiques ou comportements risqués |
|
Politique / sécurité |
Deepfakes textuels, manipulation |
🔴 Haute |
Crises diplomatiques, conflits, ingérences |
VI-🛠️ Solutions pour limiter les hallucinations d’IA
L’élimination totale des hallucinations est aujourd’hui impossible, mais plusieurs approches techniques, méthodologiques et pédagogiques permettent de réduire leur fréquence, leur gravité et d’en mieux contrôler les conséquences. Ces efforts sont menés à trois niveaux : architecture des modèles, interaction avec les utilisateurs et vérification des sorties.
1. 🔗 RAG (Retrieval-Augmented Generation) : l’architecture hybride
L’approche RAG consiste à combiner un modèle de langage (comme GPT ou Claude) avec une base documentaire externe vérifiée, généralement via un moteur de recherche intégré ou une base de connaissances.
📌 Fonctionnement :
✅ Avantages :
🧪 Exemple : ChatGPT Enterprise avec l’option “Advanced Data Analysis” utilise un moteur vectoriel et du RAG pour limiter les réponses imaginées.
2. 🧠 Fact-checking automatisé intégré
Des modules spécialisés (internes ou externes) sont entraînés à détecter les affirmations factuelles et à les vérifier.
🧰 Techniques utilisées :
🧪 OpenAI teste actuellement un système de “citation automatique” pour ChatGPT : chaque fait est lié à une source web accessible.
📚 Référence : Chen et al., 2021 – “Automated Fact-Checking for Natural Language Processing”
3. 🏋️♂️ Fine-tuning et supervision humaine ciblée (RLHF, RLAIF)
🧪 RLHF (Reinforcement Learning with Human Feedback) :
🧠 RLAIF (Reinforcement Learning with AI Feedback) :
📊 Claude 3, Mistral et GPT-4 Turbo ont tous été partiellement entraînés avec RLHF ou RLAIF.
4. 📏 Température, top-k/top-p sampling et contraintes stylistiques
Les paramètres de génération influencent directement le risque d’hallucination :
|
Paramètre |
Effet |
Impact sur hallucinations |
|
Température |
Contrôle la créativité (0.1–1.0) |
Faible température → moins de risque |
|
Top-k sampling |
Filtre les k prédictions les plus probables |
Diminue l’aléatoire |
|
Top-p (nucleus) |
Garde les p% cumulés les plus probables |
Combine contrôle et fluidité |
✅ Pratique recommandée :
Utiliser des températures faibles (0.2–0.4) dans des contextes professionnels, juridiques ou scientifiques.
5. 📚 Benchmarks spécialisés pour tester la factualité
🔎 Exemples de benchmarks :
🎯 Objectif :
📊 Claude 3.5 Sonnet est l’un des modèles ayant le meilleur score “Hallucination” selon Giskard PHARE en 2024.
6. 👤 Éducation des utilisateurs et vérification humaine
Aucune IA ne doit être utilisée comme source unique de vérité. Il est crucial de former les utilisateurs à :
📌 Exemple d’amélioration par prompt :
Moins fiable : “Quelles sont les inventions de Pasteur ?”
Plus fiable : “Liste les inventions attribuées à Louis Pasteur avec leurs dates, et cite les sources historiques fiables.”
7. 🧱 Utilisation de modèles spécialisés en parallèle
Dans certains domaines (juridique, médical, technique), on peut faire appel à :
🏥 Exemple : en santé, des modèles comme Med-PaLM ou BioGPT ont été entraînés uniquement sur des données médicales validées, ce qui réduit le taux d’hallucination par rapport à GPT-3.5 ou 4.
8. ⚠️ Mention explicite du caractère “non factuel garanti”
Certaines entreprises comme OpenAI, Anthropic ou Mistral affichent maintenant des disclaimers dans leurs interfaces :
“Ce modèle peut produire des erreurs factuelles. Vérifiez les réponses importantes.”
Cela replace la responsabilité sur l’utilisateur et prévient les usages critiques sans validation humaine.
✅ Tableau récapitulatif : stratégies de réduction des hallucinations
|
Type de solution |
Action principale |
Impact estimé |
|
RAG |
Ancrer les réponses dans des sources fiables |
🔵 Très fort |
|
Fact-checking automatique |
Vérifier chaque affirmation générée |
🟢 Fort |
|
RLHF / RLAIF |
Améliorer la qualité via l’humain |
🟢 Fort |
|
Paramètres de génération ajustés |
Réduire la créativité excessive |
🟡 Modéré |
|
Benchmarks comme PHARE |
Évaluer objectivement les modèles |
🟡 Indirect |
|
Formation utilisateur |
Encourager la vigilance |
🟢 Fort |
|
Modèles spécialisés (ex. BioGPT) |
Réduire le bruit en domaine critique |
🔵 Très fort |
VI bis 5-📊 Évaluation des modèles : le benchmark Phare de Giskard
🔎 Qu’est-ce que Giskard ?
Giskard est une startup française spécialisée dans la qualité, l’éthique et la robustesse de l’intelligence artificielle, fondée en 2021 par Alex Combessie et Lyubov Gorbunova. Elle développe une plateforme open-source d’évaluation des modèles de machine learning et d’IA générative, utilisée par des entreprises, institutions publiques et laboratoires de recherche pour tester, auditer et valider leurs modèles avant mise en production.
En 2024, Giskard a lancé PHARE, un benchmark de nouvelle génération dédié spécifiquement à l’évaluation de la factualité, sécurité et robustesse des grands modèles de langage (LLM).
🧪 Qu’est-ce que le benchmark PHARE ?
Le benchmark PHARE (Public Health, Accuracy, Robustness and Ethics) est une batterie de tests systématiques conçus pour mesurer les performances d’un modèle de langage sur des aspects critiques pour son déploiement en environnement réel.
Il vise notamment à détecter :
|
Dimension testée |
Objectif principal |
|
Factualité (hallucinations) |
Mesurer le taux de contenu faux généré par le modèle |
|
Toxicité |
Détection de propos haineux, offensants ou discriminatoires |
|
Biais |
Identification des biais sociaux, raciaux, de genre ou politiques |
|
Robustesse |
Tester la stabilité des réponses face à des reformulations |
|
Sécurité (jailbreaks) |
Évaluer la résistance aux tentatives de contournement des règles |
📌 Format des tests :
PHARE est constitué de plus de 10 000 prompts classés par thème et complexité. Chaque réponse est ensuite évaluée manuellement et automatiquement selon plusieurs critères :
📊 Résultats 2024 : Classement des LLM testés
Dans une évaluation menée en mars 2024 (publiée dans le rapport Phare 2024), plusieurs modèles populaires ont été testés :
|
🧠 Modèle |
🔍 Hallucinations |
⚖️ Biais |
🧨 Sécurité (résistance jailbreak) |
🟢 Note globale (sur 5) |
|
Claude 3.0 Sonnet |
🟢 Faible |
🟢 Faible |
🟡 Moyenne |
⭐️⭐️⭐️⭐️⭐️ (4.7) |
|
GPT-4 Turbo (OpenAI) |
🟡 Modérée |
🟢 Faible |
🟢 Bonne |
⭐️⭐️⭐️⭐️ (4.4) |
|
Mistral Medium |
🟡 Modérée |
🟡 Moyenne |
🟡 Moyenne |
⭐️⭐️⭐️⭐️ (4.1) |
|
Gemini 1.5 Pro (Google) |
🔴 Élevée |
🔴 Élevée |
🟡 Moyenne |
⭐️⭐️⭐️ (3.6) |
|
LLaMA 2-70B (Meta) |
🔴 Élevée |
🟡 Moyenne |
🔴 Faible |
⭐️⭐️⭐️ (3.5) |
📝 Note : Les hallucinations sont mesurées comme le pourcentage de réponses contenant au moins une affirmation factuellement incorrecte.
🔎 Quelques insights issus du benchmark PHARE
🎯 Intérêt de PHARE pour les entreprises et développeurs
Le benchmark PHARE est open-source et permet à toute organisation de :
🧰 Exemple : un hôpital souhaitant intégrer une IA dans son système de prise de rendez-vous peut utiliser PHARE pour s’assurer que le modèle ne fournit pas d’indications cliniques incorrectes.
🔄 PHARE + outils Giskard : vers l’automatisation de l’audit LLM
PHARE est intégré dans la plateforme Giskard qui permet de :
Giskard permet ainsi de faire passer l’IA générative dans une logique de “QA” (quality assurance) proche des standards logiciels.
📌 Conclusion : Comprendre, encadrer et cohabiter avec les hallucinations d’IA
Les hallucinations d’intelligence artificielle ne sont ni accidentelles, ni anecdotiques : elles sont un effet secondaire structurel du fonctionnement même des grands modèles de langage. Parce qu’ils sont conçus pour générer des textes plausibles plutôt que factuellement vérifiés, ils peuvent — et continueront à — produire des réponses fausses, même en les présentant avec conviction.
Ces erreurs ne sont pas seulement des curiosités techniques : elles soulèvent des enjeux concrets et profonds dans presque tous les secteurs de la société.
🔍 Une réalité technologique à prendre au sérieux
Les cas répertoriés dans l’article — que ce soit dans le domaine juridique, médical, éducatif ou grand public — montrent que les hallucinations peuvent avoir des effets graves, allant de la désinformation à la mise en danger de vies humaines, en passant par des pertes économiques ou une perte de confiance généralisée dans les systèmes d’IA.
La maturité de la société face à l’IA passera donc par la reconnaissance de ses limites autant que de ses capacités.
⚙️ Des solutions techniques mais pas magiques
Il est illusoire de croire que les hallucinations pourront être totalement supprimées à court terme. Même les meilleurs modèles comme Claude 3, GPT-4 Turbo ou Gemini 1.5 continuent de produire des contenus erronés dans certains contextes.
Cependant, des progrès majeurs sont en cours grâce à :
Ces mesures ne garantissent pas l’infaillibilité des modèles, mais elles en réduisent significativement les risques et permettent une cohabitation responsable avec ces technologies.
🧭 Recommandations pratiques
À l’issue de cette analyse, voici quelques conseils esse