En 2023, le géant des télécoms Iliad présentait Kyutai, un laboratoire de recherche sur l’IA générative. En six mois, avec une équipe de 8 chercheurs, celui-ci a développé une solution d’IA vocale capable de répondre oralement en temps réel et dotée d’une capacité de transcription également en temps réel.
- Le nouvel outil de Kyutai, baptisé Moshi, repose sur le grand modèle de langage multimodal de 7 milliards de paramètres appelé Helium. Ce dernier, considéré comme relativement compact, s’appuie sur des données textuelles et audio. Il a servi de fondation au développement de Moshi.
- Pour réussir cette avancée considérable, les chercheurs ont conçu un nouveau modèle audio en compressant dans un premier temps l’audio en pseudo-mots, puis en entraînant le modèle à partir de ces « jetons audio », prédisant chaque segment audio à partir du précédent, soit comme pour un LLM textuel classique.
- S’il ne s’agit pour l’heure que d’un « prototype expérimental », précise Patrick Pérez, dirigeant du laboratoire Kyutai et ancien directeur de Valeo.ai, le modèle est d’ores et déjà capable de générer 100 000 transcriptions de style « oral », selon des informations de l’Usine Digitale. Interrogé à ce sujet, Xavier Niel, fondateur d’Iliad, s’est félicité des avancées significatives dévoilées ce 3 juillet. Il estime que ce que Kyutai a réussi à faire est majeur et cite en comparaison le modèle GPT-4o d’OpenAI.
À lire aussi : Netflix et les Gafam concentrent la moitié du trafic internet français
Vous avez aimé cet article ? Likez Forbes sur Facebook
Newsletter quotidienne Forbes
Recevez chaque matin l’essentiel de l’actualité business et entrepreneuriat.
Abonnez-vous au magazine papier
et découvrez chaque trimestre :
- Des dossiers et analyses exclusifs sur des stratégies d'entreprises
- Des témoignages et interviews de stars de l'entrepreneuriat
- Nos classements de femmes et hommes d'affaires
- Notre sélection lifestyle
- Et de nombreux autres contenus inédits
1 an, 4 numéros : 30 € TTC au lieu de 36 € TTC