La voix du web.

D'abord lire les extraits de deux textes.

Le premier est celui de Tim Berners Lee, James Hendler et Ora Lassila, publié le 17 mai 2001, qui jette les bases de ce qui deviendra le web sémantique (extrait de la traduction française proposée par Elisabeth Lacombe et Jo Link-Pezet).

"La sono hurlait la chanson des Beatles "We can work it out" (Ensemble, on peut y arriver ) quand le téléphone sonna. Quand Pete répondit, son téléphone baissa le son en envoyant un message aux autres appareils locaux possédant un contrôleur de volume. Sa sœur Lucie l'appelait depuis le cabinet du médecin : "Maman a besoin de voir un spécialiste et de suivre des séances de thérapie, deux ou trois fois par semaine. Je vais demander à mon agent de nous arranger les rendez-vous". Pete accepta tout de suite la responsabilité de la conduire en voiture à tour de rôle.
Depuis le cabinet du médecin, Lucie donna des instructions à son agent du Web sémantique par le biais de son navigateur. L'agent trouva rapidement l'information concernant le traitement prescrit à Maman à partir de l'agent du médecin, parcourut plusieurs listes de fournisseurs de services, vérifia la couverture d'assurance pour la mère pour trouver un thérapeute dans un rayon de 20 miles de son domicile et prit en considération les taux de satisfaction "excellent" ou "très bon" attribués par des services d'évaluation fiables. Il fallut ensuite essayer de faire coïncider les heures de rendez-vous possibles (fournies par les agents de fournisseurs individuels à travers leur site Web) avec les emplois du temps chargés de Pete et Lucy. (Les mots clés en italique indiquent les termes dont la sémantique ou la signification ont été définies pour l'agent à travers le Web sémantique).
L'agent leur fournit un plan en quelques minutes. Pete ne fut pas d'accord : l'hôpital de l'université se trouvait de l'autre côté de la ville par rapport au domicile de sa mère, et il lui faudrait la ramener à l'heure de pointe. Il fit refaire la recherche par son propre agent en ajoutant des critères de choix plus précis comme le lieu et l'horaire. L'agent de Lucy, qui a une confiance totale dans l'agent de Pete dans le contexte particulier de cette tâche lui a apporté automatiquement de l'aide en lui fournissant des codes d'accès et des raccourcis à partir des données qu'il avait déjà triées.
Un nouveau plan fut présenté instantanément : il y avait une clinique beaucoup plus proche avec des horaires plus matinaux, mais il y avait aussi deux avertissements. D'abord, Pete devrait reprogrammer deux de ses rendez-vous (parmi les moins importants). Il vérifia de quoi il s'agissait : ce n'était pas un problème. L'autre remarque concernait la liste des compagnies d'assurance qui avait oublié d'inclure ce fournisseur (NDLR : la clinique) dans la liste des thérapeutes médicaux. "Le type de service ainsi que le statut du plan d'assurance ont été vérifiés de manière sûre par d'autres moyens "le rassura l'agent." Détails ?".
Lucy enregistra son accord au moment même où Pete grommelait. "Epargne-moi les détails" et tout fut réglé. (Bien sûr, Pete n'a pu s'empêcher de vouloir connaître ces détails : plus tard ce soir-là, son agent lui expliqua comment il avait découvert ce fournisseur bien qu'il ne fût pas sur la liste.) (…) Pete et Lucy ont pu utiliser leurs agents pour mener à bien leur recherche non pas grâce à la toile telle qu'elle est aujourd'hui, mais plutôt grâce au Web sémantique de demain. Actuellement, presque tout le contenu du Web est destiné à être lu, il n'est pas fait pour être manipulé de façon intelligente par des programmes informatiques."

Le second est un article d'Yves Eudes paru dans l'édition du 16 Mars 2012 du journal Le Monde et titré "Les prodiges de Sophie".

"En ce mardi matin, le patron d'une PME décide de réunir quelques collaborateurs. Il saisit son téléphone et donne ses instructions : "Sophie ? Merci d'organiser une réunion dans vingt minutes avec Clémentine, Denis et Damien." Aussitôt, Sophie prévient les personnes concernées. Pour Denis, équipé d'un téléphone mobile ordinaire, elle choisit le SMS. A Clémentine, qui ne quitte plus son iPad, elle envoie un e-mail, et pour joindre le jeune Damien, elle affiche une note sur sa page Facebook, car c'est là qu'on a le plus de chances de le croiser. Tout le monde répond "OK" à Sophie, qui transmet. En même temps, elle consulte le planning des salles de réunion de l'immeuble. Apparemment, elles sont toutes réservées en ce moment, mais elle peut vérifier : elle active les capteurs de son et de mouvement installés dans chacune des salles, et remarque que l'une d'entre elles est vide – la réunion a sans doute été écourtée. En une milliseconde, elle la retient et prévient tout le monde. Dans la matinée, Sophie réservera une table au restaurant d'entreprise pour 13 heures, et enverra au patron le menu du jour, pour qu'il passe sa commande à l'avance. En revanche, demain, elle ne le fera pas, car elle sait que, le mercredi, il déjeune toujours à l'extérieur. Au fil du temps, elle apprendra à mieux le connaître, en consultant ses profils sur les réseaux sociaux. Quand il part en voyage d'affaires, elle s'occupe de ses réservations, par Internet. En fait, elle le suit partout à la trace, grâce à la puce GPS de son téléphone mobile : s'il a rendez-vous chez un fournisseur à 11 heures et qu'à 10 h 45 il est encore à l'autre bout de la ville, elle calculera le temps de parcours sur Google Maps et préviendra le fournisseur qu'il arrivera avec une demi-heure de retard.

Sophie est une assistante infaillible, infatigable, disponible 24 heures sur 24. Elle ne tombe pas malade, ne prend pas de congés ni de RTT, ne fait pas de fautes d'orthographe, et reste calme en toutes circonstances. Elle parle plusieurs langues et sait faire de la traduction instantanée. Une fois qu'elle a été achetée et installée dans le système informatique de l'entreprise, elle ne coûte rien. En coulisse, Sophie est le produit de la combinaison de deux applications. D'une part, un système de contrôle vocal capable de comprendre un humain s'exprimant de façon naturelle – une technologie désormais bien maîtrisée. D'autre part, une plate-forme d'intelligence artificielle plus expérimentale, qui analyse les questions et les instructions, puis fournit une réponse en mode vocal, ou déclenche une opération. En fait, Sophie est un robot virtuel, dont les composantes, au lieu d'être réunies en un seul appareil, sont distribuées à travers le réseau de l'entreprise."

La voix de son texte.

Il y a le fantasme. Celui d'une intelligence artificielle avec laquelle on dialogue. Figure récurrente de la SF sous toutes ses formes et dans toutes ses périodes.

Il y a la technologie. Déjà une longue histoire. Et dernièrement Siri. L'aboutissement de la commande vocale pour les masses.

Il y a les interfaces : "classiques" du navigateur, "minimalistes" du web pousse-bouton, "trendy" ou déjà "ringardes" des avatars, "virtuelles" ou "haptiques" de nos réalités augmentées. Il y a désormais la voix comme interface. Le clavier nous mit le texte à portée de lettre. La souris nous mit le texte à portée de doigt. La fenêtre nous mit les textes à portée de vue. Et avec le(s) texte(s), le monde. Désormais à portée de voix.

Porte-voix : le web de l'injonction.

Souvenons-nous qu'à l'instant doré (rien ne dure suffisamment longtemps sur le web pour qu'on décrète un "âge d'or"), souvenons-nous, disais-je, qu'à l'instant doré de l'essor des fils RSS et de la syndication de contenus, le virage fut pris d'une navigation par souscription, d'une écriture "en dessous", d'une autorité "en retrait" de celle des autres. Avec l'essor désormais certain des technologies vocales comme interface, il ne s'agit pour l'instant pas encore vraiment de navigation ; la voix comme interface est d'abord celle de l'injonction ("trouve ceci", "cherche cela", "téléphone à mon dentiste"), de la convocation ("dis à Marie de me rejoindre au bureau"). Un web performatif. Au service de l'action.

Le côté pile des inter-faces.

Le clavier comme interface de saisie, saisie du texte et à travers lui du monde. La souris comme interface de déplacement, déplacement sur et autour du texte, sur et autour du monde. La fenêtre et le navigateur comme interface de visualisation, de visualisation du texte et de vision du monde.

De quoi la voix sera-t-elle l'interface ? De quoi la voix sans la complexité du langage est-elle condamnée à devenir l'interface ? Quand et sous quelle forme la complexité du langage pourra-t-elle être rendue dans une interface vocale comme la complexité du mouvement l'est aujourd'hui dans les consoles de jeu qui peuplent nos salons connectés (Wii et Kinect), comme la précision du mouvement l'est aujourd'hui dans des environnements de télé-médecine et de télé-chirurgie ?

Ce que nous dit l'énumération des différentes interfaces du web, clavier puis souris, puis joystick, puis manettes, puis "boutons" (de partage, de rediffusion), puis le corps, puis la voix, ce que nous dit cette courte liste c'est que le corps et la voix sont seules à être proprement performatives. Il est donc logique que dans leurs premières instanciations, dans leurs premiers artefacts, elles incarnent d'abord la mesure d'une performance. 

Voix à sens unique.

Il est certain que les technologies vocales seront demain un mode d'interaction privilégié dont l'ambition des ingénieurs d'aujourd'hui est de permettre de subsumer l'ensemble de celles qui les ont précédées : pour que la voix permette de saisir, de naviguer, de se déplacer, de visualiser.

Reste pour la "commande vocale" à se départir de ses seules valeurs d'injonction et/ou de convocation. Elle est déjà parvenue à s'interfacer avec la complexité de notre langage : en témoignent les innombrables et aboutis logiciels de "dictée vocale" qui après un court temps d'apprentissage, retranscrivent le son en texte ; manipulation qui fonctionne également à rebours comme en attestent les logiciels de "lecture automatique" et autres application "text to speech" notamment développés pour les public handicapés.

Une question demeure. La commande vocale pourra-t-elle, et à quel terme, s'interfacer avec la complexité non plus seulement égotiste, la complexité des vocalises d'un homme ou des vocables d'un texte, mais avec la complexité mouvante de tous les Hommes, de tous les Textes ? La commande vocale pourra-t-elle s'interfacer avec la complexité mouvante du web, de l'hypertexte ? La réponse est à l'évidence "oui". Pour cela elle aura besoin d'en comprendre sinon le "sens", du moins la logique discursive, l'organisation argumentative, les agencements sémantiques. Le web sémantique sera la voix de son maître. 

Choisir la bonne voie.

Dans l'article de 2001, Tim Berners Lee et ses co-auteurs écrivaient ceci :

"Le web sémantique permettra aux machines de comprendre les documents et les données, mais pas la parole et les écrits humains."

11 ans plus tard, il faudra bien que le web sémantique permette aussi aux machines de comprendre la parole. Elles comprennent déjà les données qui sont dans la parole, qui, pour partie, font parole.

Dans le même texte, ils écrivent également ceci :

"Les chercheurs du Web sémantique, au contraire, acceptent les paradoxes. Les questions sans réponse sont le prix à payer pour acquérir de la souplesse. Nous construisons un langage de règles aussi significatif que nécessaire pour permettre au Web de raisonner autant qu'on le veut. Cette philosophie ressemble à celle du Web classique : dès le développement du Web, ses détracteurs ont souligné qu'il ne pourrait jamais être une bibliothèque bien organisée, que sans base de données centrale et sans structure arborescente, on ne pourrait jamais être sûr de tout trouver. Ils avaient raison. (…)"

Ce qui est l'exact contraire de l'une des dérives actuelles du web : celle de la réponse avant la question, elle-même symptôme d'un monde dans lequel il n'y aura plus que des réponses.

Dans quelle voix.

Dès aujourd'hui il nous faut être prêts à habiter un monde à son climax technologique : celui qui de cette technologie permettra d'effacer et de gommer toute trace pour faire de nos voix et de nos corps les dernières interfaces. Nous renvoyant à l'époque littéralement préhistorique où elles furent également les premières. La technologie n'est que l'histoire des méandres du retour à un dénuement premier.

Ne pas quitter non plus cette interrogation : le web est en train de muter d'un média de l'écrit à un média de l'image. D'un média du texte à un média du son. Et ne pas cesser de la questionner.

Enfin percevoir que l'important n'est pas de savoir ce qui, de la voix ou du texte, compte le plus. S'apercevoir, en refaisant lecture de la fable "Wikipédia et le griot", que les derniers grands textes technologiques sont toujours comme les premiers grands hommes de parole : au service d'une histoire, d'une narration du monde, qu'ils catalysent et transportent, mais qui ne peut exister sans le recours à d'autres voix, à d'autres textes.

5 commentaires pour “La voix du web.

  1. Excellente réflexion. Un petit pensé en plus: la voix est à l’interface ce que le tactile est à l’informatique. Une régression dans le pouvoir de contrôler. L’aisance du pavé tactile ne doit pas cacher que la tablette nous fait passer d’une informatique où l’on produit (sur les laptops) à une informatique où on consomme (du contenu). Pas nécessairement un mal, si c’est complémentaire. Moins rose si ça devient une façon de verrouiller l’accès au code. La parole est probablement beaucoup moins agile qu’un clavier pour programmer. Donc modifier le code sera plus difficile? La voix et le doigt, loin de nous libérer, nous enchaîneront-ils dans un monde où l’on privilégiera l’ergonomie d’usage contre le pouvoir d’ouvrir le capot? Y aura-t-il toujours moyen d’accéder à l’envers du rideau d’Oz?

  2. Le web sémantique de Tim Berners Lee souffre d’une limitation fondamentale qui ne lui permettra pas de traiter les “agencements sémantiques” : il est exclusivement basé sur la logique. Le véritable traitement de la sémantique (réseaux contextuels hyper-complexes de mots, phrases, textes, hypertexte…) demande de nouvelles percées scientifiques. Je travaille là-dessus: http://pierrelevy.posterous.com/la-couverture-de-mon-prochain-livre-la-sphere

  3. D’accord avec Pierre Levy. Le web sémantique est le fruit d’une pensée d’ingénieur(s). Qui souffre rédibitoirement et par nature de rationalisme, ce qui les poussent à penser que l’humanité entière est rationnelle et adhérera d’une manière ou d’une autre au rationalisme machinique.
    Paradoxalement l’outil le plus largement utilisé du web, Google, prétend au rationalisme mais son algorithme cache des milliers de décisions humaines (j’aime-je fait le lien) dont la rationalité reste à prouver, plus des milliers de corrections subtiles et opaques du moteur, qui sont à la fois criticables et critiques. Car si l’algorithme était entièrement connu il serait manipulable (ce qui serait probablement la ruine de Google).
    Par conséquent, ces agents universels qu’on nous promet, risquent de ne jamais arriver à maturation, à moins qu’ils ne se développent de manière organique comme des écosystèmes. Mais le langage universel des agents n’est pas encore né, car pour être efficace il ne peut être qu’open source, ce qui me paraît actuellement difficile vu les intérêts économiques des acteurs en la matière.
    Ceci dit, le passage vers la voix dénote peut-être bien un changement de perception via les interfaces, mais il manque encore les trémolos émotionnels.

  4. Le site « HDA-Lab » est né d’une collaboration entre l’Institut de Recherche et d’Innovation (IRI) et le Département des Programmes Numériques (DPN) du Ministère de la Culture et de la Communication. Ce projet de recherche et développement est destiné à montrer le potentiel heuristique du tagging sémantique.

  5. “Les chercheurs du Web sémantique, au contraire, acceptent les paradoxes. Les questions sans réponse sont le prix à payer pour acquérir de la souplesse. Nous construisons un langage de règles aussi significatif que nécessaire pour permettre au Web de raisonner autant qu’on le veut. Cette philosophie ressemble à celle du Web classique : dès le développement du Web, ses détracteurs ont souligné qu’il ne pourrait jamais être une bibliothèque bien organisée, que sans base de données centrale et sans structure arborescente, on ne pourrait jamais être sûr de tout trouver. Ils avaient raison.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut