Rechercher

La startup Unstructured aborde les défis cachés de l’intelligence artificielle

Unstructured
Logo Unstructured. Getty Images

Unstructured, dont la mission est de rendre les données non structurées adaptées à la formation des LLM (grands modèles de langage), a levé 40 millions de dollars (36,7 millions d’euros), portant la valorisation de l’entreprise à 230 millions de dollars (211 millions d’euros).

Un article de Rashi Shrivastava pour Forbes US – traduit par Lisa Deleforterie

 

L’amélioration des modèles d’intelligence artificielle repose sur l’exploitation d’une quantité de données considérable. Toutefois, celles-ci sont souvent désordonnées, sous divers formats (PDF, HTML, Word, e-mails, etc.) et nécessitent une adaptation préalable pour être exploitées pleinement.

C’est le point fort d’Unstructured : « des données vraiment désordonnées », comme le décrit Brian Raymond, fondateur et PDG de l’entreprise. La startup transforme plus de 30 formats de fichiers différents en un format qu’un modèle d’apprentissage automatique peut comprendre. « Nous nous concentrons sur la face cachée de l’IA que personne ne veut exploiter », explique Brian Raymond à Forbes. « Les développeurs détestent les données non structurées. »

Unstructured a annoncé jeudi avoir levé 40 millions de dollars dans le cadre d’une série B menée par Menlo Ventures, avec la participation de Databricks Ventures et de NVentures, la branche de capital-risque de NVIDIA, entre autres. Cette nouvelle levée de fonds valorise la société à 230 millions de dollars et porte son capital total à 65 millions de dollars (59,7 millions d’euros).

Tim Tully, partenaire de Menlo Venture, a déclaré à Forbes que l’outil d’Unstructured l’avait aidé à créer une application d’IA capable de traiter les données des réunions du conseil d’administration et de les présenter aux investisseurs privés de l’entreprise.

Unstructured indique qu’environ 50 000 organisations utilisent son logiciel libre pour préparer leurs données à l’entraînement à l’IA. Les développeurs téléchargent l’outil environ un million de fois par mois en moyenne pour mettre à jour les modèles d’IA avec de nouvelles données, selon M. Raymond.

La société utilise ses propres modèles pour détecter le type de fichier d’un document ainsi que son contenu, puis achemine le contenu à travers le pipeline de reformatage approprié, le transformant en format JSON, préféré par la plupart des modèles d’IA.

Unstructured affirme avoir environ 1 000 clients payants, parmi lesquels l’armée américaine, qui utilise ses outils pour préparer des données classifiées afin d’entraîner ses propres grands modèles de langage (LLM), et Independent Health, une compagnie d’assurance maladie qui entraîne son IA sur des polices d’assurance.

Brian Raymond, âgé de 38 ans et ancien officier de la CIA, a fondé Unstructured en juillet 2022 après avoir constaté le besoin d’un outil pour nettoyer et préparer de grandes quantités de données d’entreprise pour la formation des LLM. Il est convaincu que la préparation des données est cruciale pour relier les données générées par l’homme aux modèles d’IA.

« Personne ne se passionne pour la préparation des données, tout le monde se passionne pour les modèles eux-mêmes », a-t-il déclaré. « Notre vision est de relier les données générées par l’homme aux modèles de d’IA. »

 


À lire égalementPourquoi Nvidia, Google et Microsoft misent des milliards de dollars sur l’avenir de l’IA dans le domaine de la biotechnologie

Vous avez aimé cet article ? Likez Forbes sur Facebook

Newsletter quotidienne Forbes

Recevez chaque matin l’essentiel de l’actualité business et entrepreneuriat.

Abonnez-vous au magazine papier

et découvrez chaque trimestre :

1 an, 4 numéros : 30 € TTC au lieu de 36 € TTC