Rechercher

Kyutai : l’OpenAI « à la française » dévoile le premier assistant vocal IA en temps réel au monde

Kyutai part à l'assaut d'OpenAI avec Moshi (photo : Kyutai)

En 2023, le géant des télécoms Iliad présentait Kyutai, un laboratoire de recherche sur l’IA générative. En six mois, avec une équipe de 8 chercheurs, celui-ci a développé une solution d’IA vocale capable de répondre oralement en temps réel et dotée d’une capacité de transcription également en temps réel.

 

  • Le nouvel outil de Kyutai, baptisé Moshi, repose sur le grand modèle de langage multimodal de 7 milliards de paramètres appelé Helium. Ce dernier, considéré comme relativement compact, s’appuie sur des données textuelles et audio. Il a servi de fondation au développement de Moshi. 
  • Pour réussir cette avancée considérable, les chercheurs ont conçu un nouveau modèle audio en compressant dans un premier temps l’audio en pseudo-mots, puis en entraînant le modèle à partir de ces « jetons audio », prédisant chaque segment audio à partir du précédent, soit comme pour un LLM textuel classique.
  • S’il ne s’agit pour l’heure que d’un « prototype expérimental », précise Patrick Pérez, dirigeant du laboratoire Kyutai et ancien directeur de Valeo.ai, le modèle est d’ores et déjà capable de générer 100 000 transcriptions de style « oral », selon des informations de l’Usine Digitale. Interrogé à ce sujet, Xavier Niel, fondateur d’Iliad, s’est félicité des avancées significatives dévoilées ce 3 juillet. Il estime que ce que Kyutai a réussi à faire est majeur et cite en comparaison le modèle GPT-4o d’OpenAI.

 


À lire aussi : Netflix et les Gafam concentrent la moitié du trafic internet français

Vous avez aimé cet article ? Likez Forbes sur Facebook

Newsletter quotidienne Forbes

Recevez chaque matin l’essentiel de l’actualité business et entrepreneuriat.

Abonnez-vous au magazine papier

et découvrez chaque trimestre :

1 an, 4 numéros : 30 € TTC au lieu de 36 € TTC