Kyutai : l'OpenAI "à la française" dévoile le premier assistant vocal IA en temps réel au monde

En 2023, le géant des télécoms Iliad présentait Kyutai, un laboratoire de recherche sur l’IA générative. En six mois, avec une équipe de 8 chercheurs, celui-ci a développé une solution d’IA vocale capable de répondre oralement en temps réel et dotée d’une capacité de transcription également en temps réel.

Le nouvel outil de Kyutai, baptisé Moshi, repose sur le grand modèle de langage multimodal de 7 milliards de paramètres appelé Helium. Ce dernier, considéré comme relativement compact, s’appuie sur des données textuelles et audio. Il a servi de fondation au développement de Moshi.

Pour réussir cette avancée considérable, les chercheurs ont conçu un nouveau modèle audio en compressant dans un premier temps l’audio en pseudo-mots, puis en entraînant le modèle à partir de ces « jetons audio », prédisant chaque segment audio à partir du précédent, soit comme pour un LLM textuel classique.

S’il ne s’agit pour l’heure que d’un « prototype expérimental », précise Patrick Pérez, dirigeant du laboratoire Kyutai et ancien directeur de Valeo.ai, le modèle est d’ores et déjà capable de générer 100 000 transcriptions de style « oral », selon des informations de l’Usine Digitale. Interrogé à ce sujet, Xavier Niel, fondateur d’Iliad, s’est félicité des avancées significatives dévoilées ce 3 juillet. Il estime que ce que Kyutai a réussi à faire est majeur et cite en comparaison le modèle GPT-4o d’OpenAI.

Kyutai : l’OpenAI “à la française” dévoile le premier assistant vocal IA en temps réel au monde

Gaëlle Ménage - Journaliste

Faut-il vraiment vendre quand ça tangue en Bourse ?

Droits de douane : le moral des dirigeants du secteur industriel en hausse

Le taux du Livret A devrait baisser à 1,7% au 1er août

Faut-il vraiment vendre quand ça tangue en Bourse ?

Droits de douane : le moral des dirigeants du secteur industriel en hausse

Le taux du Livret A devrait baisser à 1,7% au 1er août