fabernovel loader

Apr 12, 2018 | 5 min de lecture

Tech

Les assistants vocaux, décryptage d’une nouvelle tendance

Julien Breitfeld

Data Architecture Director


FABERNOVEL INNOVATE
Le succès des assistants vocaux ces dernières années est retentissant, et leur adoption par un public de plus en plus large confirme une adhésion massive aux nouvelles interactions qu’elles permettent. Naturellement, on se demande : qu’est-ce qui explique le décollage de - ce qui semble être - la tendance du moment ?

En début d’année, le très respectable Wired titrait pernicieusement :

« Facebook’s Virtual Assistant M is dead. So are chatbots »

C’est que, seulement deux ans après le lancement en fanfare de sa plateforme de chatbot, Facebook mettait fin à son programme « M », reconnaissant implicitement avoir échoué dans sa volonté de passer à l’ère « post app ».

Depuis deux ans, les spots se sont braqués sur une autre forme d’IHM (Interaction Homme Machine), la reconnaissance vocale et son expression, suite à l’offensive des quatre autres lettres de l’acronyme GAFAM, forts de leur logique d’APIsation et de leurs équipes de développement dédiées au Machine Learning.

Le NLP (ou Natural Language Processing) a pourtant été popularisé par Apple il y a 6 ans maintenant, avec l’incorporation de Siri dans l’iPhone 4S. Vieille lune de la firme à la pomme, il matérialisait le Knowledge Navigator de John Sculley imaginé en 1987.

 

 

Mais il aura fallu attendre Amazon, avec le lancement d’Echo en 2015, pour que les interactions à la voix rencontrent un large public. Comment expliquer le décollage de l’un, et la fin – relative – de l’autre ?

Le contexte, le contexte, le contexte

Au-delà des modes et de la soif de cabinets d’analyse pour les prophéties auto-réalisatrices, le génie d’Amazon aura été de créer l’usage par le design : Amazon Echo – et la pseudo IA qui le porte, Alexa – a été développé dans le but premier de déporter un magasin, et son vendeur, chez le consommateur. Fort de sa base installée de client Prime, l’autre géant de Seattle a énormément markété son offre en se basant sur deux piliers des standards d’expérience actuels : l’exigence d’instantanéité, et la paresse assumée. Amazon a également fait le pari inverse de la mobilité : l’objet est fixe, il est lié à un territoire, qu’il orchestre sous le contrôle de l’utilisateur. Avec Echo, Amazon venait de réintroduire le personnel de maison du XIXème, permettant à la fois de faire ses courses, de contrôler des matériels connectés, ou d’accéder à des services – simples – à la voix.

Côté interactions pourtant, Alexa n’arrive pas à la cheville d’un SIRI ou d’un Cortana. Et certains chatbots textuels sont bien plus élaborés qu’elle. Mais c’était sans compter le contexte, qui a été totalement intégré au design.

En premier lieu, un assistant vocal est transparent. La première génération d’Amazon Echo disposait de pas moins de 7 micros pour capter les commandes vocales. Aussi, le service pouvait s’effacer derrière l’usage : pas besoin de sortir son iPhone de sa poche, de le déverrouiller, de parler. Il suffit d’être présent dans la pièce dans laquelle le dispositif est installé, et de parler : Amazon Echo écoute en permanence, et ne sort de sa léthargie qu’à l’appel de son nom. Ici, pas de clavier, l’IHM détrône le chatbot texte puisque les interactions ne nécessitent pas d’accessoire (clavier, souris, écran). L’humain n’a plus besoin d’outils.

Ensuite, un assistant vocal, c’est avant tout un haut-parleur. En réintégrant un objet fixe pouvant diffuser du son dans un lieu de vie, Amazon a permis à ce vieux média qu’est la radio de se repositionner, notamment chez les plus jeunes. Ainsi, aux Etats-Unis, selon le Pew Research Center, 90% des jeunes adultes possèdent un smartphone, et plus de 70% d’entre eux écoutent un service de streaming musical, mais l’objet poste de radio est en chute libre. Selon la dernière étude d’Edison Research, The Infinite Dial, le taux d’équipement global en poste de radio a chuté de 25 points en 10 ans, avec le segment de population de 25-34 ans déclarant pour moitié n’en posséder aucun. En positionnant son device sur le marché des services de radio IP, Amazon concrétisait le DAB (Digital Audio Broadcasting), sans les limitations d’une norme mort-née. Et c’est ainsi que Radiofrance annonce 400.000 écoutes de ses chaînes sur Google Home pour le mois de janvier 2018.

Enfin, un assistant vocal est personnel. C’est ici que le contexte est le plus prégnant, et dément la fin des chatbots textuels : on n’interroge pas son assistant en présence d’un auditoire, pas plus qu’on ne parle supposément seul à son téléphone dans la rue, au risque de passer pour un freak. Mais la voix entretient la proximité avec son assistant : elle est le véhicule privilégié de nos interactions.

 

APIs, intelligence artificielle, et plateformes

Le développement des processus de Machine Learning a drastiquement augmenté le taux de reconnaissance de la parole par les ordinateurs, en parallèle avec la reconnaissance du sens des phrases. Google a été un précurseur, s’appuyant sur les questions que posaient les utilisateurs au moteur de recherche pour constituer une base d’ontologies. L’analyse sémantique a aussi évolué, depuis la méthode B-A-BA (reconnaître un mot après l’autre, puis les assembler pour faire des phrases). Aujourd’hui, l’IA qui sous tend la reconnaissance vocale s’appuie sur des algorithmes de reconnaissance du sens de la phrase, en temps réel. On peut voir un exemple avec syntaxNet, projet désormais openSource de Google.

 

 

Et puisque désormais nous vivons dans un monde hyperconnecté, l’intelligence des assistants réside dans des fermes de serveurs, et les interactions sont faites entre un senseur-micro, et des APIs qui peuvent être appelées depuis n’importe quel objet. Parlez à la Machine, et vous êtes compris.

C’est ainsi que la stratégie des GAFAM est d’imposer leur SDK dans n’importe quel objet connecté, depuis le frigo jusqu’à la voiture ; leurs motivations diffèrent selon leurs business modèles, mais tous ne rêvent qu’à une chose : que leur plateforme soit la résidence de VOTRE assistant, qui vous suivra partout, et toute votre vie, en exposant leurs services, ou des services développés par un tiers, qui apprendront de chacune de vos interactions.

 

« I’m feeling lucky »

L’intelligence, c’est, selon l’Académie, l’art de faire des choix. Passé le moteur de recherche, qui expose DES résultats, les assistants vocaux s’imposent dans la simplification des interactions hommes-machine : on veut désormais LE résultat. Le bouton « I’m feeling lucky » de Google expose à l’utilisateur UNE réponse et UNE seule, contextualisée, à la fois par rapport à celui qui pose la question, mais également aux paramètres environnementaux : heure de la journée, position géographique, historique de précédentes interactions. L’assistant vocal matérialise cette réponse chanceuse. Et bien plus, l’assistant vocal s’impose parce que la chance devient exactitude, parce que l’interaction est naturelle, parce qu’il vous connaît. Il est pour les jeunes générations un ami (imaginaire ?), pour les plus vieux un objet de science-fiction matérialisé, et pour l’entre-deux un outil dont les possibilités font peur ou font rêver.

Les assistants vocaux ne peuvent être réduits à une tendance, pas plus qu’ils ne remplaceront d’autres interfaces, mais s’intégreront dans une IHM globale, faite de sons, d’écrits, de gestes, de boucles de rétroaction de plus en plus transparentes, parce que humanisés. Néanmoins, on peut penser que la voix sera au centre du monde qui s’écrit, parce que nous vivons dans un monde de sons. En attendant la « petite » voix 😉

 

Ces sujets vous intéressent ? Inscrivez-vous à notre newsletter du vendredi pour ne rien rater de notre dossier spécial nouvelles interfaces !

S'inscrire
Cet article appartient à une enquête
logo business unit

FABERNOVEL INNOVATE

FABERNOVEL INNOVATE explore et construit le futur de vos industries. À la vitesse des startups.

à lire