petite fille parlant à un assistant vocal
© Adobe Stock - Andrey Popov

Assistants vocaux : le numérique sans écrans

Interview avec des pionnières des technologies de la parole

Google Home, Alexa, livres audio… La parole est de plus en plus utilisée dans les technologies. On peut maintenant parler avec une machine et elle peut nous répondre. Les assistants vocaux – ou interfaces conversationnelles- seraient donc une alternative au numérique par les écrans. Zoé Aegerter (designer -chercheuse dialogue humain-machine) et Marion Voillot (designer – chercheuse au CRI et à l’IRCAM-STMS, ENSCI-Les Ateliers ) travaillent sur les interactions des enfants avec ces assistants vocaux et comment ils peuvent s‘insérer dans la pédagogie. Nous leur avons posé quelques questions.
Pourquoi on va de plus en plus se tourner vers les assistants vocaux ? Est ce que c’est l’évolution logique de la relation au savoir (livre- écran- vocal) ?

Zoé Aegerter : L’écran n’est pas la panacée pour accéder et réaliser toutes les actions qu’on fait aujourd’hui. Le numérique c’est d’abord interagir avec un écran et l’engouement pour les assistants vocaux c’est se dire  » ah on va pouvoir enfin faire certaines choses différemment, avoir plus de liberté de mouvement, de regard. S‘émanciper, en partie, de cette surface qui nous absorbe« . Depuis la nuit des temps, le savoir est une transmission orale. On est passés, nous les humains, par tout un tas d’étapes, qui consistaient à figer le flux de la parole : l’écrire, l’organiser, le complexifier aussi (avec toutes les règles d’orthographe par exemple).

Aujourd’hui les évolutions technologiques nous permettent d’arriver à un paradoxe : on peut s’exprimer spontanément et laisser des traces. Puisque les technologies du langage peuvent transcrire le langage naturel ce qu’on dit n’est plus fugace et devient aussi trace et mémoire. Mais pour le moment les propositions qui existent dans le domaine des interfaces conversationnelles est encore un peu pauvre. On avait envie de soulever qu’il y avait plein d’autres choses à faire.

© Matthieu Barani
Pourquoi ces nouveaux modes d’interactions vont bousculer la pédagogie ?

Marion Voillot : On s’aperçoit que les systèmes pédagogiques ou éducatifs évoluent en fonction des technologies qui apparaissent. Par exemple quand l’ordinateur est arrivé, il s’est installé dans les classes et quand la tablette est arrivée elle est aussi arrivé dans la classe. Aujourd’hui on voit de plus en plus d’interfaces vocales arriver à la maison. C’est donc un outil qui pourrait intéresser les enseignants.

C’est aussi un outil de narration. Cela permet de changer le visuel par le langage. En maternelle le langage est très important car il permet d’interagir avec les autres, d’exprimer ses émotions et ses besoins à travers des mots. C’est aussi comprendre ce que dit la maîtresse ou le maître. Comme le langage est au centre, les interfaces vocales interrogent : est ce qu’on ne peut pas envisager de nouvelles relations avec la technologie via le langage ? Et non plus via le contenu visuel qui a tendance à absorber le très petit enfant et le rend passif ?

Concernant les enfants, comment les assistants vocaux peuvent modifier leur rapport avec les écrans et le numérique en général ? Le vocal peut-il remplacer l’écran ? 

M.V. : Je parlerais plutôt d’enrichissement. Que ce soit la question des écrans par rapport au livre et aujourd’hui la question de l’assistant vocal par rapport à l’écran, demain ce sera peut-être la réalité augmentée. On ne sait pas quelle forme cela prendra dans le futur. La vraie question à se poser c’est « qu’est ce que ces dispositifs peuvent apporter de PLUS et de MIEUX« . Voir les apports pédagogiques , sur le développement de l’enfant, etc.

Il y a aussi cette idée d’incarnation par la technologie, c’est à dire de situer notre corps dans ces interactions. Nous ne sommes pas obligés d’être figés. On peut imaginer bouger pour interagir avec une interface vocale, parce qu’il suffit de l’activer par un mot clé. On dématérialise la technologie et du coup on replace le corps, les sens et c’est aussi tout ce qui fait de nous un être humain. Cette technologie replace, en quelque sorte, l’humain et ses caractéristiques au centre.

© Quentin Chevrier

Z.A. : Ce sont des dispositifs domestiques parce qu’ils sont branchés à un secteur comme l’enceinte connectée ou le smart speaker. Donc des objets très peu mobiles. On ne va pas équiper les enfants de petites montres avec un assistant vocal (rires) en tout cas, ce n’est pas pour tout de suite. Les nouvelles technologies ne sont pas là pour effacer les autres, au contraire.

D’ailleurs on préfère parler de technologies du langage plutôt que d’agents conversationnels. Ça englobe un ensemble de situations beaucoup plus riches et larges que le simple assistant vocal où l’écran a potentiellement sa place. On peut interagir à la voix, écouter un livre audio, puis repasser à la lecture du livre en reprennant à la même phrase, puis dicter un message, l’écouter vocalement. Nous sommes tout le temps en train de passer à différentes interactions à la fois avec un écran ou des écouteurs. Mais ce qui importe c’est plus la façon dont ça nous mobilise cognitivement. On s’en fiche un peu de ce qui, techniquement, fait interface.

Comment accompagner les enfants dans ces nouveaux modes d’interaction avec les machines  ?

M.V. : Pour que l’enfant soit compris de l’interface il faut qu’il construise bien ses phrases avec sujet-verbe-complément et qu’il ait aussi une très bonne prononciation. C’est un problème, parce qu’aujourd’hui tous les assistants vocaux ne comprennent pas les enfants. La relation avec l’ordinateur, la tablette avec des tout-petits (- 6 ans) est très souvent antropomorphisée (N.D.L.R. : tendance à attribuer aux choses des traits ou réactions humaines) et encore plus pour une interface vocale parce qu’elle a la fonction de parler. Il s’agit toujours de remettre le corps et les sens au centre de ces interactions. Parce que quand on est petit, c’est l’âge de la découverte de soi par rapport à l’autre, de l’autre par rapport à un collectif, d’un collectif dans un environnement.

Z.A. : Il y a eu beaucoup de questions sur la façon dont les enfants cohabitent avec la fiction, le virtuel, les jeux-vidéo, l’imaginaire… On pourrait avoir les mêmes questions pour un agent virtuel : « est-ce que l’enfant peut croire qu’il existe ?« . Les études sur ces questions montrent que l’enfant est à l’aise avec « le faire semblant pour apprendre ». Il peut rentrer dans une interaction qui est presque de l’ordre du jeu très facilement. Après, il s’agit de donner des limites, mais il faut quand même expliquer que c’est une machine. Il faut la démystifier, expliquer qu’elle n’est pas magique.

Si il y a un assistant vocal à la maison au moment de l’apprentissage de la parole, l’enfant peut avoir tendance à le singer ou à prendre des attitudes. Si l’adulte est là, c’est à lui d’indiquer si c’est une façon de parler à un être humain ou a un robot. Ça demande peut-être d’outiller et de sensibiliser les parents d’une façon un peu inédite mais c’est toujours le même principe : il faut accompagner les usages.

Qu’avez vous observé sur les usages des jeunes avec ces machines ? 

Z.A. : En France où le marché des assistants vocaux se développe doucement, les adultes offrent souvent des smart speaker aux enfants en se disant « ah ça va être marrant« . Un peu comme un gadget. Mais nous, avec Marion, on essaye d’avoir une acceptation plus large des interfaces conversationnelles. C’est ce que nous expliquions dans l’article « Comment les assistants vocaux défient-ils la pédagogie ?« . On fait des expérimentations avec l’image et le son. On essaye aussi de repartir de la base. Par exemple, amener un enfant à découvrir sa voix, à s’entendre, enregistrer, amplifier, écouter celle des autres.

Beaucoup de personnes vivent avec la TV ou la radio allumée et cohabitent déjà avec des voix. C’est une façon de se donner des présences. Quand on a un assistant vocal, on va cohabiter avec du contenu média de toute sorte mais aussi avec cette espèce d’entité médiatrice. Et dans le design des assistants vocaux on va faire en sorte qu’il ne dise pas « je ». Qu’il ne se personnalise pas trop, qu’il n’ait pas trop de tics de langage qui lui donneraient du caractère. Donc on essaye de faire quelque chose d’un peu plus « neutre » ou « distant ».

Parlez nous de vos réalisations, et projets ( Les Bascules, la Géante endormie …) 

Z.A. : Les Bascules ce sont des contrôleurs, des objets qu’on peut toucher secouer. Ils sont oscillants, comme des culbutos. Ces objets vont permettre de jouer un enregistrement qu’on a fait dans un micro par ailleurs. Il n’y a pas de scénario figé, on le teste avec des groupes d’enfants. Ce qui nous intéresse c’est comment ces objets vont créer des situations de coopération entre les enfants, d’écoute réciproque et des situations de co-création aussi où le jeu de l’un va devenir le jeu de l’autre.

Par exemple, les très petits vont faire des bruits de lion pendant 15-20 minutes, en jouant avec le fait que le dispositif déforme leur voix avec des effets, du coup c’est très drôle. Les plus grands vont plus être réflexifs en analysant les conséquences de leur voix sur le dispositif. Donc il y a un panel d’appropriation assez large. On a aussi pensé ce rapport via d’autres supports notamment la fiction avec la démarche Postillon prospectives.

M.V. : Dans la Géante endormie le but était de créer des histoires interactives où j’équipais les enfants de smartphones qui réagissaient aux gestes en faisant un certain son. Avec Zoé on la voulait sans médiateur, que la voix sorte d’un speaker. On a donc créé et enregistré la narration. C’était une géante parce qu’on voulait que ce soit l’ensemble du corps des gens et des smartphones qui créent le corps de la géante. Et elle se levait et bougeait. Dans le futur, j’aimerais que le dispositif permette à chacun d’enregistrer sa voix ou ses gestes et qu’ils soient reproduits, pour vraiment être dans l’interaction corporelle, l’imaginaire.

À lire aussi
Pornographie : Cachez cette main que je ne saurais voir
efficitur. diam Aenean ipsum tempus lectus libero neque. dictum at ut