Rechercher

Patronus AI lance « Lynx » pour identifier les hallucinations produites par de grands modèles d’IA

Patronus AI
Anand Kannappan, cofondateur et PDG de Patronus AI. | Source : capture d'écran vidéo

La société PAtronus AI, qui mesure la performance des modèles de langage, affirme que son nouveau modèle baptisé « Lynx » peut non seulement identifier les hallucinations produites par de grands modèles de langage, mais également fournir une explication à ces réponses fausses ou trompeuses.

Article de Rashi Shrivastava pour Forbes US – traduit par Flora Lucas

 

Les modèles d’IA générative peuvent produire des résultats extraordinaires pour certaines applications, mais ils sont également connus pour faire des erreurs (ou « hallucinations »), parfois de manière convaincante, comme suggérer que les gens mangent des cailloux cinq fois par jour ou ajoutent de la colle à la pizza. Un nouveau modèle d’IA open source baptisé « Lynx », développé par la société naissante Patronus AI, vise à résoudre ce problème. Le modèle promet un moyen plus rapide, moins coûteux et plus fiable de détecter de telles hallucinations sans aucune intervention humaine.

 

Le modèle Lynx

Les cofondateurs de Patronus AI, Anand Kannappan et Rebecca Qian, tous deux anciens chercheurs de Meta AI, affirment que le nouveau modèle est plus précis que d’autres systèmes d’IA de renom, tels que GPT d’OpenAI et Claude 3 d’Anthropic, pour ce qui est de la détection des inexactitudes factuelles. Pour ce faire, Patronus AI a affiné le modèle de langage le plus avancé de Meta, Llama 3, en lui montrant 2 400 exemples d’hallucinations et les réponses correctes correspondantes.

Avant de lancer la start-up en septembre 2023, le duo s’est entretenu avec une soixantaine de dirigeants d’entreprise et a constaté que leur pire crainte était de lancer un produit d’IA et de faire la une des journaux pour de mauvaises raisons. Anand Kannappan espère que Lynx pourra contribuer à apaiser ces craintes. Il considère Lynx comme un « coach » pour les autres modèles d’IA, qui peut les guider pour qu’ils soient plus précis. L’objectif est que ses clients qui déploient des applications d’IA puissent utiliser Lynx pour découvrir les hallucinations au cours du développement plutôt que de réparer les erreurs une fois qu’elles ont été lancées.

« L’une des raisons pour lesquelles Rebecca Qian et moi avons créé la société était ce concept appelé “scalable oversight” (surveillance évolutive) », a déclaré Anand Kannappan. « Il s’agissait de savoir comment les humains peuvent continuer à superviser des systèmes qui les surpassent de loin. Et la seule façon d’y parvenir est de disposer d’une IA très, très puissante qui évalue l’IA. »

Cela contraste avec la manière dont les produits d’IA sont actuellement testés avant d’être lancés, a-t-il poursuivi, ce qui implique une série de techniques. L’une d’entre elles est le « red teaming », qui consiste à pirater manuellement les modèles d’IA afin d’exposer les vulnérabilités susceptibles de conduire à des erreurs. D’autres équipes de développement utilisent des modèles d’IA comme GPT-4 pour détecter les hallucinations, a expliqué Anand Kannappan, qui a critiqué cette approche en disant que « GPT-4 évalue littéralement GPT-4 lui-même ». C’est un problème, a-t-il expliqué, car les modèles généraux comme GPT-4 n’ont pas été spécifiquement conçus pour détecter les erreurs. Lynx, en revanche, a appris à raisonner sur les raisons pour lesquelles une réponse est erronée à mesure qu’on lui fournissait plus de contexte, a expliqué Rebecca Qian.

« Nous avons fourni des exemples de réponses incorrectes et donné le calcul financier spécifique ou la citation médicale qui montrait pourquoi la réponse était erronée », a-t-elle déclaré. Il s’agit d’une approche plus efficace, car le modèle dispose d’informations contextuelles supplémentaires qui lui permettent de mieux repérer les erreurs similaires.

 

Les autres modèles de la start-up

La start-up a également publié un nouveau test appelé « HaluBench », qui évalue la capacité de différents modèles d’IA à détecter les hallucinations dans les résultats du modèle, en particulier dans les domaines juridique, financier et médical. Ce benchmark montre que même Lynx n’est pas parfait : il obtient une précision d’environ 88 %, mais il est plus performant que la plupart des autres modèles, a déclaré Anand Kannappan.

En mars, Patronus AI a également lancé Copyright Catcher, un outil qui détecte lorsque des modèles d’IA populaires tels que GPT-4 d’OpenAI, Claude 2 d’Anthropic et Mixtral de Mistral AI produisent des contenus protégés par le droit d’auteur. L’outil a surpris ces modèles en train de régurgiter des paragraphes entiers de livres tels que Devenir de Michelle Obama et Nos étoiles contraires de John Green.

La start-up a également développé d’autres outils qui évaluent les performances des modèles dans des domaines particuliers. Par exemple, FinanceBench permet d’évaluer la qualité des réponses apportées par différents modèles d’apprentissage à des questions financières ; Enterprise PII aide les entreprises à détecter si les modèles d’IA exposent leurs informations sensibles et confidentielles ; et Simple Safety évalue les modèles d’apprentissage en fonction des risques de sécurité, par exemple en produisant des réponses nuisibles liées au suicide, à la maltraitance d’enfants et à la fraude.

Tout ce travail est axé sur la mission de la start-up : s’assurer que les grands modèles de langage ne produisent pas de mauvais résultats auxquels les gens finissent par se fier. « Lorsque le modèle a des hallucinations, il produit toujours des résultats qui semblent plausibles », explique Rebecca Qian. « Cela finit par conduire à la désinformation. »

 


À lire également : Astro : le robot d’Amazon montre que la perspective est cruciale lorsqu’on évalue une nouvelle technologie

Vous avez aimé cet article ? Likez Forbes sur Facebook

Newsletter quotidienne Forbes

Recevez chaque matin l’essentiel de l’actualité business et entrepreneuriat.

Abonnez-vous au magazine papier

et découvrez chaque trimestre :

1 an, 4 numéros : 30 € TTC au lieu de 36 € TTC