Né du rapprochement d’une solution d’agrégation de données et d’un moteur d’analyse sémantique, OPPSCIENCE est un éditeur français spécialisé dans l’Intelligence Analysis Management, une plateforme d’analyse des données par l’Intelligence. Cette solution permet aux utilisateurs finaux de tirer parti de toutes les données pour se concentrer sur l’essentiel et ainsi de maximiser la qualité de la prise de décision. Gilles André, son fondateur et C.E.O, répond à nos questions.
Vous évoquez Intelligence Analysis Management, de quoi s’agit-il ?
L’informatique est régie par des cycles partant des grands systèmes (mainframes) depuis les années 70. A l’époque des données structurées, les bases de données relationnelles et les technologies ETL ont répondu au besoin de fédérer l’ensemble des informations fragmentées dans différentes applications au sein d’un entrepôt de données unique. Et ces Datawarehouses ont permis l’avènement des outils de Data Analytics pour permettre d’analyser ces données et de faciliter les processus de décision. Aujourd’hui, les entreprises ont accès à un volume exponentiel de données issues de sources variées et constamment enrichies, le Big Data.
L’Intelligence Analysis Management (I.A.M) est au Big Data ce que la Data Science et Data Analytics ont été pour les données structurées. L’objectif est de tirer parti de l’ensemble des données (structurées et non structurées) pour faciliter la prise de décision dans un contexte où aucun être humain ne peut parcourir afin de prendre une décision éclairée.
L’I.A.M. est un écosystème de technologies durables qui remplit cet objectif en permettant de :
- Faire converger et sécuriser toute l’information disponible en un point unique ;
- Mettre en œuvre et orchestrer tout type de processus d’Intelligence Artificielle en fonction du format d’information ;
- Présenter la connaissance extraite par ces processus dans un modèle de connaissance métier unifié ;
- Permettre aux utilisateurs d’exploiter l’IA en toute autonomie et sécurité, sans avoir besoin de compétences techniques.
L’écosystème leur permet de se concentrer sur l’essentiel et ainsi de maximiser la qualité de la prise de décision.
Quels sont les grands défis qui attendent votre secteur ?
Le premier dépend de notre capacité à savoir quoi faire du potentiel de l’intelligence artificielle au sens large. Avec cette question « comment éviter de perdre le contrôle sur l’Information ». Les difficultés constituées sont relatives à :
- Un volume croissant d’informations incompatibles avec les capacités d’absorption de l’être humain ;
- La variété des informations disponibles qui nécessitent des analyses et des traitements d’intelligence artificielle différenciés. Le rassemblement des informations dispersées permet à l’utilisateur d’avoir une meilleure compréhension et une vision globale.
- La maîtrise de l’intelligence artificielle elle-même, qui consiste d’une variété de technologies à mettre en œuvre en causant la perte de traçabilité de sa source/ou contexte d’origine
Il convient également de faire face à l’internationalisation accrue des interactions, avec l’essor du multilinguisme et la multiplicité des canaux non maîtrisés. Il y aura une hausse continue du volume d’information. Les entreprises vont immanquablement perdre en structuration du volume.
D’autant plus qu’on assiste à un développement exponentiel des formats non saisis (les données hétérogènes). Comment OPPSCIENCE peut-il y répondre ?
Cette augmentation doit nous pousser à prendre conscience que la donnée non structurée est porteuse de richesses et qu’il existe des technologies pour l’extraire. Peu d’acteurs ont déjà compris les potentialités de cette matière textuelle. Le judiciaire, le policier sont de ceux-là. Ces domaines ont depuis des années placé l’écrit au centre de leur production de données. D’autres doivent suivre. Face à cette nécessité, OPPSCIENCE permet de passer par des algorithmes, mais avec une philosophie porteuse de traçabilité, qui consiste à toujours retrouver la source. L’utilisateur garde la main, avec la possibilité de corriger suivre de près ce que propose la machine, selon une procédure à implémenter avec le client, selon ses desiderata.
Quelle est la position d’OPPSCIENCE par rapport aux modèles de langage larges (LLMs) comme ChatGPT ?
Il est évident que l’avènement des grands modèles de langue constitue une avancée dans l’IA, leur mise en œuvre au service des cas d’usage d’OPPSCIENCE ouvre des perspectives enthousiasmantes. On observe des capacités de compréhension du langage et de raisonnement qui peuvent apporter des gains de performances considérables, sans pour autant requérir de grandes quantités de données d’apprentissage.
Ces avancées suggèrent de nouveaux paradigmes dans la mise en œuvre des modèles d’IA pour répondre aux besoins concrets des utilisateurs. Chacun est désormais familier des agents conversationnels qui en sont devenus un outil puissant pour peu qu’il soit connecté aux données adéquates. Cependant ce mode d’interaction n’est qu’une possibilité parmi beaucoup d’autres, qui restent à inventer pour en faire des outils efficaces sur des problématiques métier.
La première question est de qualifier précisément les tâches sur lesquelles les LLMs apportent un bénéfice sensible sans pour autant introduire des risques ou des biais qui seraient inacceptables dans les domaines que nous adressons. Sur ces bases, à nous de proposer de nouvelles modalités d’interaction avec l’IA, qui permettront d’en tirer le meilleur parti, de façon cohérente avec les modes opératoires de nos utilisateurs.
Un deuxième enjeu concerne la méthodologie qui permet d’alimenter les LLMs avec les données client. En effet, étant pré-entraînés sur d’immenses quantités de données « publiques », ces modèles acquièrent des compétences linguistiques générales et considérables, mais restent ignorants des informations que renferme la documentation opérationnelle de nos clients. Il faut mettre en œuvre diverses techniques permettant d’abord un « ajustement » (fine-tuning en anglais) des modèles génériques pour les rendre plus efficients sur ces données, et ensuite de leur fournir au moment opportun les informations métier à exploiter pour répondre à une demande particulière de l’utilisateur.
Le troisième enjeu concerne l’explicabilité et la traçabilité des informations fournies. Nous devons donner à l’utilisateur les éléments qui ont permis d’aboutir à telle ou telle conclusion, et le renvoyer aux sources documentaires où ces éléments ont été détectés (c’est même une obligation légale pour certains usages).
Le quatrième enjeu concerne la lutte contre les biais inhérents au fonctionnement même de ces modèles. L’un des plus problématiques pour nous est le phénomène dit « d’hallucination » : un modèle génératif est conçu pour produire une réponse plausible, mais sans garantie de véracité. Ainsi, lorsqu’il ne dispose pas des informations nécessaires, il peut « inventer » une réponse de toutes pièces, difficile à distinguer d’une réponse fiable.
En apportant des réponses concrètes à ces différentes problématiques, OPPSCIENCE promeut une approche pragmatique pour intégrer les LLMs dans son arsenal technologique, et permettre à ses clients de considérer l’IA dans sa complétude de solutions tout en analysant le rapport coût / bénéfice / risque de chacune.
Est-ce que les LLM remplacent les technologies de Traitement Automatique du Langage Naturel (TALN), qui est l’un des domaines d’expertise principaux d’OPPSCIENCE ?
L’une des tâches cruciales du TALN pour nos usages est l’extraction d’informations : il s’agit de transformer les informations exprimées en langage naturel en données structurées et normalisées que l’on peut stocker, agréger, interconnecter, filtrer, etc. Par exemple, dans la phrase « Linkedin a été racheté par Microsoft le 13 juin 2016 pour 26 milliards de dollars », il est question de deux entreprises impliquées dans un événement de fusion-acquisition. Pour un banquier d’affaires, on cherchera à qualifier l’évènement, ses parties prenantes, et ses caractéristiques (date, montant…), puis à recouper et compléter l’information par l’analyse d’autres sources.
Or, par construction, les modèles génératifs comme les LLMs actuels ne sont pas orientés vers ce type de tâche : ils se prêtent plus naturellement au paradigme « text to text » avec des applications comme le résumé automatique, la traduction, la réponse à question, ou les agents conversationnels.
La question de leur applicabilité à l’extraction de connaissances selon un modèle structuré reste donc à ce jour une question relativement ouverte. Les LLMs sont potentiellement capables de répondre à des besoins qui ne sont pas connus à l’avance, et/ou pour lesquels ils n’ont jamais été spécifiquement entraînés, au prix des différents biais que nous avons évoqués plus haut.
Il y a donc deux axes à considérer en termes de complémentarité avec les autres méthodes dont nous disposons déjà :
- Articulation des LLMs avec d’autres techniques pour un certain nombre de tâches d’extraction d’informations : sur certaines tâches les LLMs viendront en replacement, et pour d’autres en complément d’apprentissage automatique plus classique ainsi que de modèles symboliques.
- Une fois que les informations « de base » sont extraites, les LLMs peuvent également intervenir en aval pour supporter des fonctionnalités qui supposent un haut niveau de compréhension et d’inférences, a fortiori sur les sujets qui ne peuvent être définis a priori. Cela suppose dans certains cas de mettre en place de nouveaux paradigmes en termes d’expérience utilisateur, dont le mode conversationnel n’est qu’un exemple parmi d’autres.
La technologie d’OPPSCIENCE étant conçue autour de principes de modularité et de flexibilité, y compris au niveau des processus de TALN et d’IA en général, cette démarche combinatoire s’inscrit naturellement dans son fonctionnement, ce qui nous permet de proposer à nos clients de tirer le meilleur parti de chaque technique.