Assistants Vocaux : Comment Amazon Éduque Alexa

Une équipe d’étudiants de l’université Emory a remporté le concours Amazon Alexa avec une récompense de 500 000 dollars pour les progrès dans le domaine de l’IA conversationnelle.

Le prix décerné par Amazon est remis au gagnant de son défi annuel qui consiste à concevoir des chatbots avec lesquels les clients d’Alexa peuvent interagir via des appareils compatibles.

L’équipe Emora d’Emory était dirigée par Sarah Fillwock, doctorante, et Jinho D. Choi, conseiller de la faculté.

L’équipe Chirpy Cardinal de l’université de Stanford, dirigée par Ashwin Paranjape et Abigail See, doctorants, ainsi que Christopher Manning, conseiller pédagogique, ont remporté la deuxième place et un prix de 100 000 dollars. La troisième place, avec une récompense de 50 000 dollars, a été attribuée à l’équipe Alquist de l’université technique tchèque, dirigée par Jan Pichl, doctorant.

Les équipes participant au défi doivent essayer d’atteindre un score cumulé de 4,0 ou plus sur un total possible de 5 de la part d’un jury, qui trouve qu’au moins deux tiers de leurs conversations avec le chatbot lors du dernier tour de jugement restent cohérentes et engageantes pendant 20 minutes.

Bien qu’aucune des équipes de cette année n’ait relevé ce défi, chaque équipe a fait des progrès impressionnants vers cet objectif. Emora, le chatbot de l’université Emory, a obtenu une note moyenne de 3,81 ; Chirpy, de Stanford, a obtenu une note moyenne de 3,17 ; et Alquist, le chatbot tchèque, a atteint une note moyenne de 3,14.

« Nous sommes ravis que, pour la troisième année consécutive, l’équipe gagnante ait établi un nouveau record pour le prix Alexa en termes de notes moyennes des utilisateurs », a déclaré Prem Natarajan, vice-président d’Amazon de l’organisation Natural Understanding d’Alexa AI.

Dix équipes universitaires ont participé au concours de cette année. Au cours de la compétition, les clients d’Alexa ont tenu plus de 240 000 heures de conversations avec les chatbots, couvrant des dizaines de millions d’interactions.
M. Natarajan s’est récemment entretenu avec Eye on AI au sujet de ce défi.

Craig : Pouvez-vous nous expliquer comment l’IA conversationnelle a évolué et comment elle a été lente à se développer au-delà des intentions préprogrammées ?

Prem Natarajan : Un point de vue simple de l’IA conversationnelle est que nous sommes en train d’assembler quelques technologies différentes. La reconnaissance de la parole, la compréhension du langage naturel basée sur créneaux d’intention, la configuration de cela en un ensemble d’actions que vous pouvez prendre et ensuite l’exécution de ces actions. Mais même si cela fonctionne, ce qui semble être une architecture relativement simple, il a fallu une bonne vingtaine d’années pour que la reconnaissance vocale elle-même fonctionne à une échelle relativement importante.

Et cela s’explique en partie par le fait que la façon dont la parole fonctionnait à l’époque imposait des contraintes sur le type d’expérience que vous pouviez fournir. Ainsi, vous pouviez obtenir d’excellentes performances avec un microphone en parlant de près. Vous pouviez obtenir des performances raisonnablement bonnes avec des signaux propres au téléphone. Mais si vous vous trouviez dans un environnement bruyant ou à une certaine distance du microphone, les performances commençaient à baisser de façon spectaculaire.

C’est pourquoi il faut avancer rapidement jusqu’en 2014 – date à laquelle Alexa a été lancée. Selon moi, la principale barrière qui a été franchie est celle de la reconnaissance vocale en champ lointain, c’est-à-dire que je peux continuer à faire tout ce que je fais dans ma vie quotidienne, tout en accomplissant mes tâches quotidiennes, et je peux simplement parler à une sorte d’environnement et celui-ci me répond ou me parle. C’est ce qui m’a agréablement surpris à l’époque, après toutes ces années passées dans ce domaine. J’ai dit : « Ça alors, ils ont réussi à faire fonctionner ça. C’est incroyable ».

Donc, pour ce qui est de l’amélioration de l’IA conversationnelle, j’aime considérer l’IA conversationnelle comme une sorte d’expérience de l’IA conversationnelle, comme l’expérience de parler à un agent intelligent. Et pour ce qui est de cette expérience, je pense qu’un changement majeur a été cette reconnaissance vocale en champ lointain.

Ensuite, la question qui se pose immédiatement est de savoir comment commencer à étendre cette expérience. Parce que c’est un succès, beaucoup de gens l’utilisent. Les gens en attendent beaucoup. Ils veulent l’utiliser de différentes manières. Donc, la première chose que vous adoptez est ce que je considère comme un modèle mental de réduction des défauts, où vous dites : laissez-moi commencer à comprendre les différentes façons dont je suis sous-performant et commencer à m’assurer que j’apprends rapidement des signaux des clients pour améliorer les performances de cette façon, ou pour combler les lacunes de fonctionnalité.

Mais vous prenez aussi un peu de recul et vous dites, en synthétisant toutes ces observations que j’ai de ces différents défauts que j’examine, quelles sont les choses systémiques ou architecturales que j’en retire ? Par exemple, si vous lancez de plus en plus de fonctionnalités, si vous devez former des modèles pour chaque nouvelle fonctionnalité que vous lancez, et que vous devez ensuite obtenir des données annotées pour cela, c’est une dépense énorme. Et c’est également lent, vous ne faites pas les choses aussi vite que vous le pouvez pour répondre aux attentes des clients.

On commence donc à se demander quel est le défi de la science fondamentale. Nous nous sommes dit : « Si seulement nous pouvions prendre tous ces modèles que nous avons déjà et transférer une partie de cet apprentissage sur de nouvelles fonctionnalités, cela nous accélérerait. Et en fait, si je peux faire cela, je peux aussi prendre des modèles d’environnements ou d’applications fondamentalement riches en données, et fournir une expérience satisfaisante pour des environnements fondamentalement pauvres en données ou dans lesquels il est difficile d’obtenir des données ».

Et c’est là que l’apprentissage profond (deep learning) entre en jeu, car cette marée montante qui soulève tous les bateaux, qu’il s’agisse d’apprentissage par transfert ou de préformation, s’est avérée être un incroyable accélérateur du progrès scientifique et du progrès technique. Plus précisément, si vous prenez certaines de ces architectures préformées basées sur des transformateurs, nous pouvons commencer avec celles-ci, utiliser très peu de données, et lancer quelque chose qui est au même niveau de performance que ce qui aurait nécessité beaucoup de données de formation.

Mais nous regardons aussi les choses d’une manière différente et nous nous disons : « Mais si je veux vraiment réparer les défauts ici, comment puis-je concentrer les données que je regarde sur ces lacunes ? Et c’est là qu’intervient l’apprentissage actif, et il s’avère que l’apprentissage actif fonctionne très bien en combinaison avec un apprentissage approfondi. Donc, toutes ces choses, c’est, je dirais, le deuxième vecteur technologique qui fait avancer l’IA conversationnelle. Même si, dans une certaine mesure, nous pensons qu’il s’agit de technologies basées sur des composants, que ce soit pour transférer l’apprentissage d’un domaine d’application à un autre, ou pour faire passer le contexte. Comme, par exemple, je dis : « Quel temps fait-il à Boston aujourd’hui ? » Et j’obtiens une réponse, puis je demande : « Et demain ? » Le système sait qu’il faut transmettre le contexte, c’est-à-dire Boston. Ou alors je dis : « Et Los Angeles ? » Et maintenant, il sait qu’il faut tenir compte du contexte d’aujourd’hui, mais qu’il s’agit de Los Angeles aujourd’hui.

Ce genre de choses commence à devenir plus facile avec un apprentissage approfondi. Ainsi, même si dans un certain sens, ces choses peuvent être composées, nous commençons déjà à construire un échafaudage qui lie ces choses ensemble, qui pose les bases de ce que je pense être la prochaine chose, qui est de plus en plus l’intégration de ces composantes.

Craig : Et pour ce qui est de l’apprentissage, ce que vous dites, c’est qu’au départ, il s’agissait de composants et que chaque composant avait son propre ensemble d’algorithmes pour faire différentes choses. Et avec la montée de l’apprentissage profond, ils sont mis dans un système de bout en bout. Est-ce une façon de le décrire ?

Prem Natarajan : Je pense qu’en gros, c’est vrai. La nuance supplémentaire que j’ajouterais est que, même s’il s’agit toujours de composants, le fait qu’il existe une méthodologie commune qu’ils incarnent tous, à savoir l’apprentissage approfondi, les rend plus aptes à travailler ensemble, et nous permet de les configurer plus efficacement, et jette également les bases qui nous permettront d’obtenir une intégration plus profonde de ces choses dans des régimes de formation de bout en bout.

Craig : Grâce à un apprentissage approfondi, on s’attend à ce que ces systèmes deviennent de plus en plus familiers, car ils apprendront non seulement ce pour quoi ils ont été formés en laboratoire, mais aussi au travers de leur conversation avec les utilisateurs. Pouvez-vous nous parler du niveau d’apprentissage actuel avec Alexa et d’autres modèles d’IA conversationnelle ? Je m’intéresse plus particulièrement à ce qui s’est passé avec Tay chez Microsoft, et à ce que j’ai compris qui a en quelque sorte mis un frein à l’apprentissage en ligne pour ces systèmes. Ainsi, la formation et l’apprentissage sont beaucoup plus contrôlés. Pouvez-vous nous en parler ?

Prem Natarajan : Pour ce qui est d’apprendre de l’utilisateur lui-même, je le motive par un exemple très simple. Comment pouvons-nous apprendre directement de l’utilisateur pour étendre les capacités d’assistants vocaux conversationnels comme Alexa ? Une chose que nous avons déjà faite et qui est en production, bénéficiant à des millions d’énoncés chaque semaine, est ce que nous appelons l’apprentissage automatique des classes d’équivalence.
Alors, imaginez que vous veniez voir Alexa et que vous disiez : « Alexa, joue Sirius XM Chill. » Et la première fois que vous lui demandez, personne ne lui a jamais appris ce qu’est « Sirius XM Chill ». Alors, Alexa revient et dit : « Ecoute, je suis désolée, je ne sais pas ce que ça veut dire. » Et peut-être qu’une centaine de personnes ont cette expérience, et peut-être qu’une fraction d’entre elles, dix, cinq, suivent immédiatement pour dire : « Alexa, passe la chaîne 53 de Sirius XM. » Grâce à ce comportement, sans aucun humain dans la boucle, sans que personne n’annote quoi que ce soit, vous pouvez en fait déduire avec une certaine confiance que Sirius XM Chill et le canal 53 sont probablement la même chose. Une fois que vous avez appris cela, la prochaine fois que quelqu’un vient et dit « Joue Sirius XM Chill », vous pouvez automatiquement traduire cela par « JOue Sirius XM channel 53 ». Et en fait, vous pouvez même le tester sans qu’un humain ne soit dans la boucle.

Alors, imaginez maintenant que vous jouez le canal 53 de Sirius XM, et que l’utilisateur l’écoute pendant un moment. Cela vous donne la certitude que vous avez fait le bon choix. Mais disons que vous l’avez joué et que les premiers utilisateurs à qui vous le faites écouter vous disent « Stop » et essaient de le changer. Cela vous donne le signal que ce n’est peut-être pas la bonne chose que j’ai faite. Donc, dans mon esprit, il ne s’agit pas seulement du contenu dont vous tirez des enseignements. Mais vous apprenez à partir d’autres signaux que le client vous envoie afin de s’assurer que vous apprenez les bonnes choses, des choses utiles.

Maintenant, pour ce qui est des systèmes qui apprenaient en ligne sans contrainte, vous avez raison. Il y a des exemples où ce type d’apprentissage tourne mal. Surtout parce que les gens peuvent lancer ce que vous pourriez considérer comme des attaques coordonnées ou des attaques contradictoires sur le modèle, ou si beaucoup de gens se regroupent et décident de lui enseigner la mauvaise chose, alors il apprend la mauvaise chose. Et parfois, cette mauvaise chose est une chose offensante.

En même temps, l’apprentissage en ligne est un mécanisme d’apprentissage très puissant. La question que nous nous posons est donc de savoir comment nous y prendre pour bien faire les choses. Comment faire pour qu’il soit résistant à ce genre d’exploitation ? La première chose à faire est d’essayer de créer des classificateurs qui détectent soit des messages toxiques, soit des messages offensants, soit des modèles offensants, des choses comme ça. Et vous voulez les apprendre à l’échelle, parce que si vous vous contentez d’écrire des règles, vous n’êtes pas à l’échelle. Et c’est l’une des choses que nous avons faites et que nous mettons en production.

Une deuxième chose qui me semble plus passionnante du point de vue de l’apprentissage machine est qu’une grande partie de nos recherches actuelles se concentrent sur l’enseignement d’un système à faire quelque chose. Comment faire quelque chose et comment le faire mieux.

Mais ce genre d’exemples que vous venez d’évoquer avec l’apprentissage en ligne qui a échappé à tout contrôle, nous voulons aussi pouvoir enseigner au système ce qu’il ne faut pas faire. Il y a donc des travaux récents, des propositions récentes, et nous étudions également des idées comme celles-ci, sur, pouvons-nous fournir des ensembles de données qui disent au système, « Hé, c’est ce que j’aimerais que vous ne fassiez pas ».

De manière familière, au lieu d’un apprentissage par la probabilité, peut-être un apprentissage par l’improbabilité. Donc, en gros, « Évitez de faire des choses comme ça ». Tout comme en donnant des exemples positifs, il peut généraliser à partir de ces exemples positifs pour fournir d’autres exemples positifs. L’objectif ici est qu’en fournissant des exemples négatifs, il peut généraliser à partir de ces exemples négatifs pour éviter une classe beaucoup plus large d’exemples négatifs.

Mais, pour revenir à votre question, je pense que l’apprentissage en ligne, l’apprentissage des cultures, reste une source d’apprentissage très précieuse. Mais nous reconnaissons également le besoin de recherche dans ce domaine, donc ce que nous avons essayé de faire, c’est également de fournir des données externalisées aux chercheurs universitaires, que ce soit par le biais du prix Alexa ou par d’autres canaux. Récemment, par exemple, nous avons publié le plus grand ensemble de données conversationnelles fondées sur la connaissance qui soit accessible au public. Il contient plus de 10 000 conversations, peut-être un quart de million de tours de conversation, peut-être quelque chose comme 5 millions de mots. Il comprend également les sources de connaissances qui ont été utilisées pour produire des réponses. Tout cela permet aux gens de faire des recherches et de trouver des moyens plus efficaces et plus sûrs de combiner les avantages de l’apprentissage en ligne, mais aussi de nous protéger des inconvénients de l’apprentissage en ligne.

Craig : Ce dont nous parlons en ce moment, c’est d’un dialogue axé sur les tâches. Vous demandez au modèle ou à l’assistant virtuel de jouer une chanson, ou de réserver une chambre d’hôtel. Mais il y a autre chose, quand les gens pensent à une conversation, ils pensent vraiment au bavardage, n’est-ce pas ? D’une conversation où l’agent peut répondre au langage naturel et tisser des connaissances à partir d’une base de connaissances. Où en sommes-nous sur cette voie ? Et est-ce là le défi de cette année ?

Prem Natarajan : Le défi du prix Alexa porte essentiellement sur le bavardage ou la conversation sociale. Vous savez, il y a différentes façons de le décrire, des conversations ouvertes ou des conversations sans but particulier. C’est la distinction que vous faites, je crois, entre les systèmes de dialogue axés sur les tâches. C’est là que se situe le défi. Et il y a certaines implications en termes de technologies dont nous venons de parler. Une implication très importante est que dans les conversations sociales, beaucoup de réponses que vous devez générer sont en fait principalement conditionnées par l’historique de cette conversation. Alors que dans les conversations axées sur les tâches, vous devez souvent interagir avec des informations dynamiques. Donc, si je vous demande : « Quel temps fait-il aujourd’hui ? » Vous ne pouvez pas répondre à cette question en vous basant uniquement sur l’historique de la conversation. Vous devez rechercher des informations et ces informations sont dynamiques. Donc, généralement, pour les conversations sociales, nous mélangeons ces deux choses parce que vous voulez parler de l’actualité. Vous devez mélanger ces deux choses. Mais les implications technologiques sont telles que lorsque vous avez des systèmes de bout en bout qui sont en cours d’apprentissage, ils sont généralement limités à l’endroit où vous pouvez générer une bonne réponse basée sur l’historique de la conversation. Alors que si vous avez des informations dynamiques qui font partie de la conversation, il devient beaucoup plus difficile de construire des systèmes purement de bout en bout, ce qui dépasse l’état actuel de la technique.

Craig : Lorsque vous avez une conversation, il arrive souvent que l’interlocuteur s’appuie sur ses connaissances et les intègre à la conversation. En ce moment, quand je parle à un assistant virtuel et que je lui pose une question, il ne répond pas à la conversation, en général. Il me donne la source qu’il a trouvée, puis il lit à partir de cette source, ce qui est très différent d’une conversation. Je veux dire, si je dis : « George Washington a-t-il vraiment coupé un cerisier ? » L’agent cherchera peut-être dans Wikipédia ou dans une biographie et dira : « Voilà ce que j’ai trouvé. » Et il me lira l’entrée. Donc, quand vous parlez de mélanger les deux, c’est ce qu’il ferait, il trouve la source, il trouve l’information. Mais ensuite, il doit synthétiser cela dans la conversation de manière transparente. Où en sommes-nous dans cette voie ?

Prem Natarajan : En fait, nous avons vu des progrès significatifs dans ce domaine, surtout depuis un an et demi, deux ans. Laissez-moi vous donner un exemple tiré du prix Alexa. Pour les concurrents du prix de cette année, les équipes universitaires qui y participent, en plus de l’accès habituel que nous fournissons à notre reconnaissance de la parole, à la compréhension du langage naturel, etc. nous avons également mis en place un générateur de réponse neurale. Donc, en gros, le générateur de réponse neurale, pour revenir à ce que vous avez dit, pourrait trouver quelque chose, qu’il fasse une recherche basée sur l’extraction ou qu’il examine simplement l’historique de la conversation, il pourrait trouver quelque chose, qu’il s’agisse d’un sujet ou d’un fait particulier, qu’il utilise pour déclencher la réponse que ce générateur de réponse neurale va générer.

Mais il ne lit pas mot pour mot ce qu’il a trouvé. Il utilise donc au moins deux éléments pour conditionner la réponse. La première est l’historique de la conversation jusqu’à présent, plus un fait ou un autre attribut qu’il aurait pu obtenir d’une autre source. Ensuite, il les utilise pour générer une réponse qui est ensuite diffusée à l’utilisateur. Les participants au prix Alexa de cette année ont utilisé ce générateur de réponse neurale et nous avons constaté une très belle amélioration dans la façon dont les utilisateurs y ont répondu et dans la satisfaction des utilisateurs, grâce au caractère naturel de ces réponses.

Craig : Pour en revenir à l’apprentissage, quand vous dites les signaux que le système reçoit, si vous criez au système de s’arrêter, quand il est à mi-chemin de sa réponse, il émet évidemment un signal négatif. Si la conversation se poursuit avec d’autres questions pendant un certain temps, c’est un signal positif. Cela ressemble à un apprentissage de renforcement. Est-ce là la stratégie d’apprentissage sous-jacente que vous utilisez ? Et une fois que vous avez établi le cadre conversationnel de base ?

Prem Natarajan : C’est certainement l’une des stratégies d’apprentissage que nous utilisons une fois que nous avons en quelque sorte formé le modèle et que nous l’avons mis en production. Vous avez raison de dire qu’il s’agit d’une forme d’apprentissage par renforcement. Quand on en arrive à l’apprentissage machine, il y a toujours des écoles de puristes qui disent : “Eh bien, à proprement parler, l’apprentissage par renforcement est défini de cette façon“. Mais dans une sorte de travail qui consiste à renforcer le comportement du système en regardant le comportement du client, les signaux du client, c’est définitivement notre incursion pour essayer d’utiliser le feedback du client comme renforcement dans le système en direct.

Mais je dois souligner, parce que nous parlons, en général, de changements architecturaux que nous voyons, dans le contexte des conversations Alexa, qui est ce nouvel environnement de développement de l’expérience conversationnelle où nous utilisons l’apprentissage profond dans l’environnement du développeur lui-même pour réduire la quantité de données qu’un développeur expérimenté doit apporter à la table et pour réduire la quantité de codage qu’il doit faire, nous nous éloignons de l’architecture à créneaux d’intention. Donc ici, ce que nous essayons de faire, c’est d’extraire des entités. Et ensuite, nous essayons directement de prédire les actions que l’utilisateur veut faire. Et dans le cadre de ce processus, nous essayons également de prédire lesquelles de ces actions ont un sens. Et donc, pour cela aussi, la façon dont nous entraînons ces systèmes dans des environnements simulés, etc. a une saveur d’apprentissage par renforcement.

Craig : Et en regardant la progression du prix et les progrès réalisés sur Amazon, est-ce une situation où il y a des classes d’algorithmes et où tout le monde comprend ce que les composants devraient être et où il s’agit de modifier les paramètres ou d’améliorer les ensembles de données de formation ou quelque chose comme ça pour réduire les taux d’erreur et les taux de réussite ? Ou bien voyez-vous des approches complètement nouvelles qui surprennent tout le monde ?

Prem Natarajan : Trois choses. Premièrement, au fur et à mesure que vous déployez les choses, vous voulez toujours qu’une partie de votre travail soit axée sur des améliorations progressives de l’expérience. Parce que cette expérience existe déjà, vous voulez en réduire les effets lorsque vous faites cela. La deuxième chose que vous essayez de faire est d’élargir la portée des expériences qui peuvent être développées. Et c’est là que se trouve, comme je viens de le mentionner, l’environnement de développement des conversations Alexa, où nous utilisons l’IA dans l’environnement du développeur lui-même pour aider les développeurs à développer des expériences plus riches avec moins d’efforts. En ce qui concerne la troisième chose, les nouveaux développements surprenants, celui dont je veux vraiment parler, je ne peux pas le faire maintenant, mais nous pourrons en parler en octobre lorsque nous le lancerons. Mais je vais vous en donner un aperçu : j’ai parlé de cet apprentissage où nous apprenons des classes d’équivalence directement de l’utilisateur. Ce que nous voulons faire, c’est suivre cette voie, mais essentiellement sous forme de stéroïdes. Par exemple, comment aller encore plus loin dans cette voie. Les détails ne sont pas encore prêts à être partagés, mais nous prévoyons de faire un partage plus public de ce travail cet automne.

Craig : Et dans un document de recherche, en quelque sorte, ou…

Prem Natarajan : Non, non, non.

Craig : Avec une sortie de produit ?

Prem Natarajan : Oui. Comme un lancement dont nous allons faire la démonstration. Et nous allons aussi le lancer à nos utilisateurs pour qu’ils puissent l’essayer pour de nouveaux cas d’utilisation. Cela revient à notre approche globale. Nous n’annonçons pas seulement des avancées technologiques. Nous annonçons généralement des choses que nos clients peuvent utiliser. Donc, en raison de cette culture, nous ne parlons souvent pas des avancées technologiques qui sont en laboratoire, parce que ce dont nous aimons vraiment parler, c’est « Voici quelque chose que vous pouvez utiliser et qui est motivé par cette innovation ». Donc, oui, ce sera quelque chose que les gens pourront utiliser avec leur appareil Alexa préféré.

Craig : Merveilleux. Une des choses qui m’intéressent est la possibilité d’utiliser l’IA conversationnelle dans l’éducation et l’éducation en ligne, et Alexa, avec la base installée qu’elle possède, est le moyen parfait pour ce genre de choses. Y a-t-il des discussions au sein d’Amazon sur le développement de programmes spécifiques pour l’éducation qui pourraient être fournis par Alexa ?

Prem Natarajan : Comme vous le savez, nous ne parlons pas de feuilles de route pour des produits spécifiques, mais cela dit, je veux dire que l’éducation n’est évidemment pas seulement quelque chose que nous voulons faire, mais nous pouvons voir que nos clients le veulent. Ils veulent utiliser Alexa. Il y a déjà des compétences d’apprentissage des langues sur Alexa. Donc, dans une certaine mesure, il y a déjà une composante éducation qui est disponible sur Alexa. Et je pense qu’il est juste de dire qu’étant donné l’intérêt des clients pour Alexa, il est évident que nous en parlons. Nous voulons trouver les meilleurs moyens de servir nos clients. Et nous continuerons à indexer sur ce vecteur, mais vous avez tout à fait raison. L’éducation présente un grand intérêt pour les clients et donc pour nous aussi.

Craig : Et particulièrement en ce qui concerne les progrès de l’IA conversationnelle, parce que c’est ce dont vous avez besoin. Il faut s’engager dans un contexte conversationnel pour qu’elle retienne l’attention des gens.Cela ne peut pas être simplement une question, une réponse, une question, une réponse. Quand les résultats du prix seront-ils annoncés ?

Prem Natarajan : Les résultats du prix seront annoncés dans environ trois semaines. Je peux certainement partager le gagnant. Il s’agit de l’équipe Emora de l’université Emory. Chaque année, une nouvelle équipe gagne, ce qui est plutôt satisfaisant pour nous car nous avons l’impression de créer une formidable réserve de talents, ce qui a toujours été l’un de nos principaux objectifs avec le concours du prix Alexa.

Craig : Pouvez-vous nous parler du gagnant, des raisons pour lesquelles il a gagné, de ses performances ?

Prem Natarajan : Oui. Ce que je dirai du système Emory, c’est que je ne veux pas leur voler la vedette, mais je vais au moins partager une chose qui, d’après mes observations, était très intéressante et je pense qu’elle allie à la fois l’avance technologique et l’accent mis sur l’expérience de l’utilisateur et du client. Ainsi, la nouveauté qui a retenu mon attention est cette chose qu’ils appellent les dialogues axés sur l’expérience personnelle.

En gros, leur robot social essaie de détecter un ensemble de sujets précis qui sont exprimés à partir d’expériences personnelles dans le contexte du dialogue, etc., et il utilise ensuite cela pour modifier la façon dont les réponses sont générées pour obtenir des choses qui semblent naturelles, conversationnelles et appropriées. Et je pense qu’ils ont fait un très bon travail en s’assurant qu’ils se concentrent sur l’expérience personnelle telle qu’elle est exprimée dans le contexte du dialogue et qu’ils l’utilisent ensuite pour pousser les réponses qui sont générées dans une direction qui est très satisfaisante pour l’utilisateur.

Craig : Et le défi est de 20 minutes. Est-ce bien cela ? Ont-ils une chance ou est-ce 20 minutes avec chacun des cinq juges ? Je veux dire, comment faites-vous cela ?

Prem Natarajan : On fait la moyenne de ces 20 minutes sur plusieurs sessions. C’est très difficile, c’est un peu comme un coup de chance, mais la moyenne est calculée sur plusieurs sessions différentes, donc ce n’est pas suffisant pour qu’ils aient de la chance et aient une conversation de 20 minutes avec une personne. La moyenne est calculée sur l’ensemble de leurs séances.

Craig : Mais chaque conversation dure 20 minutes. Et vous obtenez ces 20 minutes en fonction de plusieurs critères.

Prem Natarajan : chaque conversation est le temps que les juges prennent avant de dire : « Cette conversation est terminée. Cela ne vaut pas la peine de continuer cette conversation parce que nous n’entendons rien de nouveau, ou parce qu’elle ne nous suit plus ». Ainsi, la note de qualité de la conversation et la durée de la conversation sont toutes deux des variables indépendantes.

Craig : Combien de séances chaque équipe reçoit-elle dont on fait ensuite la moyenne ?

Prem Natarajan : Il y a des mois pendant lesquels les bots sociaux de l’université sont directement accessibles aux utilisateurs d’Alexa. Donc, si vous avez un appareil Alexa, vous pouvez aller dire : « Alexa, allons discuter » . Et Alexa vous connectera aléatoirement à l’un des bots sociaux. Nous ne vous disons pas de quel bot social il s’agit pour diverses raisons, mais aussi pour nous assurer que le système ne peut pas être utilisé, car nous tenons compte de leurs réactions. Ainsi, vous bénéficiez de plusieurs mois d’interaction. Et en fait, les robots sociaux font partie des 10 meilleures compétences sur Alexa.

Donc, beaucoup de gens s’engagent avec eux et certains de ces engagements sont étonnamment longs et les gens semblent les trouver satisfaisants. Ensuite, nous entrons dans la phase de compétition jugée, qui est la finale, un événement de quatre jours avec plusieurs sessions chaque jour. Et puis il y a tout un panel de juges et tous les juges ont la possibilité d’interagir avec tous les robots sociaux. Nous ne leur disons pas avec quel robot social ils interagissent. Ils entrent simplement et ils interagissent avec un tas de robots sociaux différents. Bien sûr, avec le temps, les juges apprennent à connaître, mais d’après le comportement du robot, il doit s’agir du même robot. Ils ne savent toujours pas de quelle équipe il s’agit.

Et donc, le gagnant final est jugé sur la base du jugement, qui se déroule sur quatre jours et plusieurs sessions chaque jour. Mais la sélection pour la finale est basée sur leurs performances sur des périodes de sept jours, comme sur les commentaires que nous recevons des utilisateurs d’Alexa. En fait, les utilisateurs d’Alexa sont parmi les juges les plus importants pour cette compétition car ce sont eux qui décident qui accède à la finale.

C’est aussi passionnant car pouvez-vous imaginer être un étudiant universitaire et avoir accès non seulement à la technologie de pointe, à la reconnaissance vocale et ainsi de suite ? Pouvoir se concentrer sur ce que l’on veut faire, c’est-à-dire le système de dialogue et l’IA conversationnelle, en plus de toute la technologie de pointe, mais aussi la vie réelle, une situation réelle où l’on peut interagir avec des utilisateurs du monde réel qui interagissent avec leurs systèmes et donnent leur avis.

Craig : Et avez-vous des statistiques sur le nombre d’interactions que vous avez eues au cours de la compétition ? Que chaque système a eu, combien de centaines ou de milliers de conversations ?

Prem Natarajan : Oui. C’est autour de ce nombre, de ces dizaines de milliers de conversations qui approchent les centaines de milliers de conversations.

Craig : Et l’équipe d’Emory, la gagnante, Emora, avait-elle une avance progressive sur la compétition ou y a-t-il un grand écart entre elle et l’équipe qui a terminé deuxième ?

Prem Natarajan : On peut dire que les finales, les dernières sessions, ont eu lieu hier, et ce sont donc des chiffres préliminaires. L’écart est important.

Craig : C’est fascinant. Ces modèles sont-ils toujours accessibles sur Alexa ou les avez-vous retirés maintenant que la compétition est terminée ?

Prem : Ils sont toujours disponibles. Tu peux aller dire : « Alexa, allons discuter. »

Craig : Et ça vous dirigera vers l’une d’elles ou vous la donnez maintenant à Emora ?

Prem Natarajan : Non, ça vous dirigera vers l’un des finalistes. Nous sommes informés par des choses qui se passent ailleurs. Donc, nous regardons ces modèles de bavardage. Vous savez, beaucoup ont été mis en ligne récemment, aux États-Unis et ailleurs, et vous pouvez aller les essayer en ligne. Et certains d’entre eux prennent, vous savez, 25 secondes pour revenir avec une réponse. Peu importe que cette réponse soit satisfaisante, dans un certain sens, si elle prend 25 secondes, elle n’est pas satisfaisante du point de vue de l’expérience client.

Mais cela dit, je pense que c’est le germe d’énormes capacités futures dans certains de ces domaines et, grâce au prix Alexa et aux efforts de recherche internes, nous nous efforçons de rendre Alexa beaucoup plus conversationnel, beaucoup plus naturel, beaucoup plus intuitif, si vous voulez, et dans certains cas, proactif. Donc, mon message général est que si vous avez une Alexa, vous avez une IA intelligente qui se développe chez vous.

<< Article traduit de Forbes US – Auteur (e) : Craig S. Smith >>

<<< A lire également : La Nouvelle Fonctionnalité D’Alexa Et Autres Nouvelles Tendances Technologiques >>>