États-Unis : la Bibliothèque du Congrès, terrain de jeu pour les entreprises spécialisées dans l’IA

Avec des archives contenant environ 180 millions d’ouvrages, la Bibliothèque du Congrès suscite l’intérêt des start-up spécialisées dans l’IA qui cherchent à entraîner leurs grands modèles de langage sur des contenus qui ne leur vaudront aucune poursuite judiciaire.

Article de Rashi Shrivastava pour Forbes US – traduit par Flora Lucas

Des portraits en noir et blanc de Rosa Parks, des lettres écrites par Thomas Jefferson et la bible géante de Mayence, un manuscrit du XV^e siècle connu pour être l’une des dernières bibles manuscrites d’Europe, figurent parmi les archives de la Bibliothèque du Congrès : 180 millions d’ouvrages, dont des livres, des manuscrits, des cartes et des enregistrements audio.

Le regain d’intérêt pour les archives de la Bibliothèque du Congrès

Chaque année, des centaines de milliers de visiteurs traversent les immenses salles de la bibliothèque, passant sous des dômes de style Renaissance, ornés de peintures murales et de mosaïques. Cependant, depuis peu, cette bibliothèque vieille de plus de 200 ans attire un nouveau type de visiteurs : les entreprises spécialisées dans l’IA qui souhaitent accéder aux archives numériques de la bibliothèque (et aux 185 pétaoctets de données qu’elles contiennent) pour développer et former leurs modèles les plus avancés.

« Nous savons que nous disposons d’une grande quantité de matériel numérique qui intéresse beaucoup les grandes entreprises de modèles de langage », a déclaré à Forbes Judith Conklin, responsable de l’information à la Bibliothèque du Congrès. « C’est un phénomène extrêmement populaire. »

Le regain d’intérêt pour les données de la bibliothèque se reflète également dans les chiffres. Le site congress.gov, qui est géré par la Bibliothèque du Congrès et héberge des données sur les projets de loi, les statuts et les lois, reçoit entre 20 et 40 millions de visites mensuelles sur son API, une interface qui permet aux programmeurs de télécharger les données de la bibliothèque dans un format lisible par une machine. Selon Judith Conklin, le trafic sur l’API de congress.gov n’a cessé d’augmenter depuis son lancement en septembre 2022. L’API de la bibliothèque reçoit aujourd’hui environ un million de visites par mois.

Des œuvres qui appartiennent au domaine public

Les archives numériques de la bibliothèque contiennent une abondance d’informations rares, authentiques et fiables. Elles sont également diversifiées : les collections de la bibliothèque contiennent du contenu dans plus de 400 langues et couvrent de nombreux domaines comme l’art ou la musique, entre autres. Cependant, ce qui rend ces données particulièrement intéressantes pour les développeurs d’IA, c’est que ces œuvres appartiennent au domaine public et ne sont pas soumises à des droits d’auteur ou à d’autres restrictions. Alors qu’un nombre croissant d’artistes et d’organisations verrouillent leurs données pour empêcher les entreprises spécialisées dans l’IA de les récupérer, la Bibliothèque du Congrès a mis ses réserves de données à la disposition de tous ceux qui le souhaitent.

Pour les entreprises spécialisées dans l’IA qui ont déjà exploité l’intégralité d’internet, en récupérant tout, des vidéos YouTube aux livres protégés par des droits d’auteur, afin d’entraîner leurs modèles, la bibliothèque est l’une des rares ressources « gratuites » restantes. Sinon, ils doivent conclure des accords de licence avec les éditeurs ou utiliser des « données synthétiques » générées par l’IA, ce qui peut être problématique et entraîner une dégradation des réponses du modèle.

Seul bémol : les personnes qui souhaitent accéder aux données de la bibliothèque doivent les collecter via l’API, un portail par lequel n’importe qui, d’un généalogiste à un chercheur en IA, peut télécharger des données. Cependant, il est interdit de récupérer le contenu directement sur le site, une pratique courante parmi les entreprises spécialisées dans l’IA et qui, selon Judith Conklin, est devenue un véritable « obstacle » pour la bibliothèque, car elle ralentit l’accès du public à ses archives.

« Il y a d’autres personnes qui veulent nos données pour entraîner leurs propres modèles, mais elles veulent les obtenir rapidement et elles se contentent donc de gratter nos sites internet », a-t-elle déclaré. « S’ils nuisent aux performances de nos sites internet, nous devons les ralentir manuellement. »

Les entreprises spécialisées dans l’IA s’intéressent également à la bibliothèque en tant que client

La chasse aux données n’est qu’un aspect de la question. Des entreprises comme OpenAI, Amazon et Microsoft courtisent également la plus grande bibliothèque du monde en tant que client. Ces entreprises prétendent que les modèles d’IA peuvent aider les bibliothécaires et les spécialistes en la matière à effectuer des tâches telles que la navigation dans les catalogues, la recherche d’enregistrements et le résumé de longs documents. C’est certainement possible, mais il faut d’abord aplanir certaines difficultés. Natalie Smith, directrice de la stratégie numérique de la Bibliothèque du Congrès, a expliqué à Forbes que les modèles d’IA, formés à partir de données contemporaines, ont parfois du mal à être exacts d’un point de vue historique, par exemple en identifiant une personne qui tient un livre comme quelqu’un qui tient un téléphone portable. « Il y a un biais écrasant en faveur de l’époque actuelle et ils appliquent souvent des concepts modernes à des documents historiques », a déclaré Natalie Smith.

À cela s’ajoute le risque d’hallucination et de propagation de fausses informations basées sur les ouvrages de la plus grande bibliothèque du monde. En mars, le Congressional Research Service, un institut de recherche qui fait partie de la Bibliothèque du Congrès, a annoncé qu’il développait des modèles d’IA pour rédiger des résumés de projets de loi, dans l’espoir que cet outil puisse aider à résorber un arriéré de milliers de rapports en attente. Cependant, lors des tests, le modèle a été victime d’hallucinations répétées. Il a classé le District de Columbia parmi les États américains dans un projet de loi qui précisait la définition d’un « État » et a affirmé à tort que les étudiants de Taïwan et de Hong Kong seraient concernés par un projet de loi qui interdisait l’octroi de visas étudiant à certains citoyens chinois.

Alors qu’elle étudie attentivement la manière d’utiliser les outils d’IA en interne, la bibliothèque souhaite mettre davantage de ses données illimitées à la disposition du monde entier. Dans les années à venir, elle prévoit de numériser un plus grand nombre de ses collections spéciales, une aubaine pour le public. Il est inévitable que les entreprises spécialisées dans l’IA s’en servent également.

« Les bibliothèques et les agences fédérales ont été l’épine dorsale des données qui ont stimulé l’économie de tant de manières différentes », a déclaré Natalie Smith. « Nous disons souvent qu’Uber n’aurait jamais vu le jour sans les données géospatiales provenant d’une agence fédérale. »

États-Unis : la Bibliothèque du Congrès, terrain de jeu pour les entreprises spécialisées dans l’IA

Forbes

Newsletter quotidienne Forbes

La dépendance à la Chine fragilise les start-up de drones militaires de la Silicon Valley

Repenser l’administration publique à l’ère de l’IA générative

À SUIVRE | Ecklo propose des emballages réutilisables pour palettes

La dépendance à la Chine fragilise les start-up de drones militaires de la Silicon Valley

Repenser l’administration publique à l’ère de l’IA générative

À SUIVRE | Ecklo propose des emballages réutilisables pour palettes