Avec la montée en puissance d’assistants virtuels comme Alexa d’Amazon, Siri d’Apple et Google Assistant, nous commençons tous à nous habituer à parler à nos appareils. Contrairement aux ordinateurs équipés d’un clavier et d’une souris, ou aux tablettes et aux téléphones dotés d’un écran tactile, les assistants virtuels nous permettent d’interagir en utilisant uniquement notre voix à travers un langage parlé naturel. Les interfaces vocales simplifient considérablement notre interaction avec la technologie.
Pour répondre aux demandes, les assistants virtuels sont construits sur un schéma complexe de technologies d’Intelligence Artificielle :
- Un Wakeword (WW) fonctionne sur l’appareil, écoutant l’utilisateur prononcer un mot ou une phrase particulière pour activer l’assistant. Il est également possible d’activer l’assistant par d’autres moyens, par exemple en appuyant sur un bouton.
- Automatic Speech Recognition (ASR) convertit l’audio parlé par l’utilisateur en transcription textuelle.
- Le Natural Language Understanding (NLU) prend la transcription de ce que l’utilisateur a dit vocalement, et prédit son intention d’une manière qui permet d’agir. Cette composante comprend que les utilisateurs peuvent faire la même demande de multiples façons différentes qui devraient toutes avoir le même résultat.
- Le Dialogue Manager (DM) décide ce qu’il faut dire à l’utilisateur, s’il y a lieu de lancer une action spécifique, et gère toute conversation.
- Le Text to Speech (TTS) est la voix de sortie de l’assistant.
La technologie de ce pipeline doit faire face à l’ampleur et à l’ambiguïté du langage naturel. Ainsi, à côté des règles définies manuellement, il est basé sur l’apprentissage de la machine: le Machine Learning – un groupe d’algorithmes d’IA qui apprennent leur comportement à partir de données au lieu d’être explicitement programmés. Cela permet aux assistants d’apprendre comment les gens parlent et d’être en mesure de généraliser à de nouveaux orateurs ou demandes.
Les types d’assistants virtuels
Les assistants d’IA peuvent être déployés de plusieurs façons – par exemple sur une application pour smartphone, sur un appel téléphonique ou sur un appareil dédié comme un haut-parleur intelligent. Il existe de nombreux endroits où les assistants virtuels s’avèrent utiles, et de nouvelles applications sont continuellement développées. La configuration la plus simple est un système de commande et de contrôle. Ici, l’utilisateur n’a que quelques commandes à sa disposition pour contrôler un appareil, avec peu de dialogue. Des assistants simples sont souvent utilisés dans des environnements où la commande mains libres améliore l’efficacité, par exemple en donnant aux opérateurs de machines une commande vocale supplémentaire dans l’atelier.
De nos jours, bon nombre d’assistants sont axés sur les tâches, ce qui représente une avancée par rapport aux systèmes de commandement et de contrôle. L’utilisateur et l’ordinateur travaillent ensemble pour réaliser des tâches bien définies comme effectuer un virement bancaire ou trouver des recommandations pour des prêts bancaires. Ces assistants travaillent généralement dans des domaines étroits comme les finances ou le service à la clientèle et ont besoin d’un certain dialogue avec l’utilisateur pour accomplir la tâche.
Des assistants personnels virtuels plus grand public comme Alexa d’Amazon ou Siri d’Apple répondent à de nombreuses demandes de renseignements dans beaucoup de domaines. Ils vous permettent de jouer de la musique, de demander la météo, de contrôler vos appareils domestiques intelligents, de demander des blagues et bien plus encore. Leurs interactions restent axées sur les tâches, bien qu’ils aient généralement des réponses riches et “bavardes” à des demandes de renseignements généraux.
La recherche universitaire est en train de passer d’un dialogue axé sur les tâches à de nouvelles formes d’interaction conversationnelle. Les assistants entièrement conversationnels sont loin d’être construits et déployés à grande échelle, mais la recherche actuelle se penche sur les formes sociales de l’interaction homme-ordinateur. Des concours comme le Alexa Prize – un concours universitaire pour former des assistants qui conversent de façon cohérente et engageante avec les humains – présentent certains de ces résultats.
Se tourner vers l’avenir
Malgré leur adoption généralisée, les assistants d’IA à l’échelle locale n’en sont encore qu’à leurs débuts. Siri d’Apple a été lancé sur iPhone récemment en 2011, et Alexa d’Amazon en 2014. La technologie de Machine Learning s’améliore continuellement. Au cours des prochaines années, nous nous attendons à ce que les assistants virtuels deviennent:
- Personnalisables: les entreprises seront plus facilement en mesure de créer des interactions personnalisées. Nous commençons déjà à voir les premiers outils permettant de personnaliser facilement les assistants vocaux.
- Contextuels: les assistants intégreront le contexte de différentes sources. Le contexte pertinent peut provenir de connaissances du monde réel, d’informations personnalisées sur l’utilisateur ou de l’historique de la conversation en cours.
- Conversationnels: même si les niveaux humains de conversation ne sont pas encore prêts d’arriver, les assistants d’IA incorporeront des capacités de conversation plus rudimentaires dans un proche avenir.