Neutralité des algorithmes et pertinence des profils sont dans un bateau.

Deux vieilles questions déjà largement discutées et débattues notamment sur ce blog. Celle de la neutralité des algorithmes. Et celle de la pertinence des profils humains. Société du contrôle et #toussa. Mais en plein coeur de l'affaire #Prism (écoutes de la NSA, voir mon analyse ici) et au hasard de quelques autres lectures glanées sur le web, je voudrais rappeler l'intérêt de ces questions, et les remettre en perspective.

Il est un fait établi que la neutralité des algorithmes est un pur #bullshit.

Preuve en image 😉

Plus exactement, un algorithme (le programme et les formules logico-mathématiques qui le constituent) est neutre dans sa conception. Mais il ne l'est jamais dans son application (par exemple le principe du pagerank qui postule qu'un lien vaut un vote mais qui institue de fait – et de manière d'ailleurs parfaitement logique dans la philosophie qui a prévalu lors de la conception dudit algorithme – que certains liens ont plus de poids que d'autres). A cela il faut rajouter les usages qui, dès que le principe de l'algorithme est – même en gros – connu, prennent un malin plaisir à le subvertir ou à le détourner (Google Bombing ou Blak Hat SEO). Du coup pour limiter les détournements tout autant que pour préserver une représentation homogène du monde, les ingénieurs ajoutent des dizaines ou des centaines de "variables" et font évoluer l'algorithme. Et quand l'ajout de variable de suffit pas, ils mettent la main sous le capot et virent ou ajoutent ou changent le classement de certaines pages manu militari.  Donc non non non et NON, les algorithmes ne peuvent pas être neutres. Le fantasme de la neutralité des algorithmes est très proche de celui d'une dictature éclairée. Si on veut la neutralité, il faut une opacité totale sur le mode de calcul appliqué. Mais si on a une opacité totale, nul ne peut plus être garant de cette neutralité que ceux qui mettent en place l'algorithme. On est donc obligé de leur faire confiance. Mais on sait qu'on ne peut pas. Donc on leur demande de nous en dire un peu plus sur les critères utilisés et/ou on essaie – et on arrive en général – à trouver les critères de l'algo. et à partir de là, on entre dans une nouvelle boucle récursive : critères connus => détournements => ajout de variables inconnues => etc. 

Et de toute façon comme souvent rappelé ici ou :

"Quand nous consultons une page de résultat de Google ou de tout autre
moteur utilisant un algorithme semblable, nous ne disposons pas
simplement du résultat d'un croisement combinatoire binaire entre des
pages répondant à la requête et d'autres n'y répondant pas ou moins
(matching). Nous disposons d'une vue sur le monde (watching) dont la
neutralité est clairement absente. Derrière la liste de ces résultats se
donnent à lire des principes de classification du savoir et d'autres
encore plus implicites d'organisation des connaissances.  (…)
Une nouvelle logique
se donne à lire. Moins « subjective » que les principes classificatoires
retenus par une élite minoritaire (clergé, etc.) elle n'en est pas
moins sujette à caution. Les premières étaient douteuses mais lisibles,
celles-ci le sont tout autant parce qu'illisibles[2], c'est-à-dire
invisibles : l'affichage lisible d'une liste de résultats, est le
résultat de l'itération de principes non plus seulement implicites
(comme les plans de classement ou les langages documentaires utilisés
dans les bibliothèques) mais invisibles et surtout dynamiques, le
classement de la liste répondant à la requête étant susceptible
d'évoluer en interaction avec le nombre et le type de requêtes ainsi
qu'en interaction avec le renforcement (ou l'effacement) des liens
pointant vers les pages présentées dans la page de résultat."

Manifestation de surface mais à sa manière exemplaire de cette nécessité de rétablir un ordre documentaire du monde y compris pour ceux qui prétendent simplement le gérer de manière algorithmique et en dehors de toute construction ou représentation a priori, le problème auquel se trouvent confrontées les entreprises du classement "Fortune 100" dont les versions "mobiles" des sites web se trouvent subitement "déclassées" suite à un changement dans l'algorithme de Google précisément dédié à l'indexation des versions mobiles. L'effort de pédagogie engagé par Google risque de ne pas être suffisant face aux enjeux économiques (et politico-diplomatiques) de l'affaire et on peut supposer qu'il y aura quelques réajustements manuels pour que chacun retrouve le rang qui lui semble, a priori, dû.

La pertinence des profils est la clé algorithmique de la société du contrôle.

Méditez bien cette formule. Elle repose sur plusieurs postulats vérifiables. Primo, dès 2007 ici, je décrivais une rupture radicale avec le passage au "World LIFE web" :

"Après l’adressage des documents, (…) la principale question que pose ce nouvel âge est
celle de la sociabilité et du caractère indexable, remixable de notre
identité numérique et des traces qu’elle laisse sur le réseau. (…) De plus en plus
de sites de réseaux sociaux « ouvrent » l’immense catalogue des
individualités humaines qui les composent à l’indexation par les moteurs
de recherche. Ce qui pose nécessairement la question de la pertinence
des profils humains."

Depuis, pas besoin de vous faire un dessin, on y est jusqu'au cou. Le second postulat vérifiable est celui que démontre admirablement le remarquable article de l'excellentissime Jean-Marc Manach : "Pourquoi la NSA espionne aussi votre papa (#oupas)." Donc vous allez le lire … ça y est … et vous revenez.

Et vous avez compris une chose essentielle : de la même manière que la rupture technologique introduite par Google dans le monde du search reposait sur l'idée folle qu'il n'était plus besoin de s'intéresser au contenu des pages pour les classer par pertinence mais que leur environnement externe (les liens pointant vers elles) suffisait, de la même manière les tendances actuelles – non pas seulement de l'espionnite aïgue qui agite nos gouvernants mais aussi et surtout l'ingénierie à l'oeuvre derrière l'ensemble des fonctionnalités sociales présentes sur le web – les tendances actuelles des réseaux sociaux et des moteurs postulent que davantage que le contenu de nos profils ce sont les métadonnées qui les englobent qui sont les facteurs clé d'une mise en calculabilité des individus pour déterminer la pertinence de tel ou tel profil au regard de telle ou telle visée politique ou commerciale.

Le troisième postulat veut que la société du contrôle politique et la société du contrôle de la consommation (c'est à dire du marketing, du "désir", du "pulsionnel") soient en gros la même chose, ou en tout cas qu'elles reposent sur les mêmes stratégies (de contrôle donc). Là vous me ferez grâce d'une thèse en philosophie politique sur le sujet, je suis sûr qu'on se comprend parfaitement.

Ces trois postulats nous amènent à la conclusion logique énoncée plus haut : "La pertinence des profils est la clé algorithmique de la société du contrôle." #cqfd

Big METAdata : love le gras.

Les réseaux sociaux stricto sensu (en terme d'ingénierie) ont l'inconvénient d'avoir quelques années de retard sur les moteurs de recherche stricto sensu. Mais ils ont l'énorme avantage de pouvoir reprendre à leur compte les métriques de ranking établies par les premiers en les adaptant à ce nouvel objet documentaire que sont nos  profils, moyennant quelques ajustements et perfectionnements. D'autant que si les permiers (moteurs de recherche donc) durent initialement faire face à l'indigence des métadonnées disponibles et à la négligence que nous mettions tous à en produire (remember Pamela Anderson), les seconds (réseaux sociaux) peuvent s'appuyer sur l'immensité de ces "Big Metadata" qui sont à nos profils ce que le gras est au jambon : si y'en a pas c'est fade, t'as du mal à l'enlever complètement, ça laisse des tâches/traces le plus souvent indélébiles, plus t'en mets et plus tu fais des bénéfices sur le prix au kilo au détriment du consommateur, et tout le monde t'explique qu'il aime pas ça mais tout le monde en mange en douce.

1 milliard de terroristes diabétiques.

Et donc dans l'immeuble au 1 milliard de voisins qu'est Facebook, nous habitons tous à moins de 5 portes de Justin Bieber (et ça intéresse grave son producteur), de Mohammed Merah (et ça intéresse grave la DCRI), de Coca-Cola (et ça intéresse grave les annonceurs), de Bernard Tapie (et ça intéresse grave Christine Lagarde), du Crédit Lyonnais (et ça intérese grave Bernard Tapie), de Al-Quaïda Yemen (et ça intéresse grave la NSA), de notre maîtresse (et ça intéresse notre femme), et de tout un tas d'autres gens (et ça intéresse personne). Et la question est : "quel est le profil qui sera le plus pertinent pour moi dans un contexte de tâche donné ?" soit l'équivalent exact du problème qui fonde une partie des travaux théoriques des sciences de l'information dans leur approche des questions de la recherche documentaire (information retrieval) : "quel est le profil que sera le plus pertinent pour moi dans un contexte de tâche donné ?"

Ce qui donne les questions suivantes :

  • quels sont les profils les plus intéressants pour la NSA quand celle-ci tente d'identifier des réseaux terroristes ?
  • quels sont les profils les plus intéressants pour l'annonceur Coca Cola quand celui-ci tente d'identifier de nouveaux leads ou prospects susceptibles d'ingérer une boisson noire, qui pique et sucrée comme un diabétique en fin de vie ?
  • quels sont les profils les plus intéressants pour Monsieur Jean-Claude Dusse quand il tente d'identifier des réseaux de lingerie fine regorgeant de nouveaux leads ou prospects susceptibles de vous voyez bien ce que je veux dire bande de petits dégoûtants
  • etc.

Sauf qu'avec l'effet petit monde, quand tout le monde est voisin de tout le monde, Mohammed Merah intéresse autant Coca-Cola que la NSA. Et comme je suis autant voisin de l'un que de l'autre, je suis un diabétique en puissance (ça je m'en doutais avant) et un terroriste en puissance (ça je m'en doutais un peu moins).

Et comme la NSA et Coca-Cola se doutent tous deux vaguement que j'ai plus de chances de vider une canette dans mon frigo que de déposer une bombe dans une école, ils s'aperçoivent qu'il perdent tous les deux du temps. Alors ils ont recours aux métadonnées (big metadata), c'est à dire à une sphère documentaire externe au document lui-même (c'est à dire "moi") pour mieux qualifier, documenter mon profil, c'est à dire pour rétablir de la distance au sein de l'effet "petit monde". Pour qu'au lieu d'un graphe patatoïde agrégeant une immensité de points, émergent et se détachent des communautés, puis des profils individuels, sur la base d'une critériologie discriminante essentiellement fournie par "nos" métadonnées.

Distance-call

(Copie d'écran extraite de cette excellente vidéo pédagogique sur l'analyse et la visualisation d'écoutes téléphoniques)

Qui trop embrasse mal étreint et qui trop précise mal rappelle.

Poussons un peu plus loin l'analogie avec les critères standards de l'évaluation des résultats d'une recherche documentaire, c'est à dire le taux de rappel* et le taux de précision**.

(*Taux de rappel : ratio entre le nombre de documents pertinents trouvés lors d'une recherche documentaire et le nombre total de documents pertinents existant dans le système. // **Taux de précision : ratio entre le nombre de documents pertinents trouvés lors d'une recherche documentaire et le nombre total de documents trouvés en réponse à la question.)

La neutralité des algorithmes devrait / pourrait permettre de garantir que ce soit le taux de précision qui soit mis en avant dans une logique de recherche. Or les logiques attentionnelles et les économies liées ("attention economy" et "intention economy") ont pour enjeu et pour fondement de surestimer et de sur-valoriser le taux de rappel, seul capable de faire tourner le coeur des ingénieries de la recommandation, c'est à dire de produire un "bruit" contextuel limité mais suffisant pour nous aiguiller vers d'autres profils / produits et d'élargir ainsi le spectre de nos potentialités d'achats ou de contacts, un taux de rappel seul capable de rétablir cette "distance" nécessaire pour mieux identifier nos comportements à l'écart de la proxémie contrainte qui caractérise l'effet petit monde des environnements numériques fermés ; un taux de rappel capable d'embrayer sur des logiques de "longue traîne" en redonnant vi(e)sibilité à des profils / produits / pages que nous n'aurions pas vocation à croiser par l'intermédiaire de nos seules requêtes. La marge de négociation est dès lors extrêmement fine entre une sérendipité "calculée" qui consituerait un élargissement objectif et intéressant et un téléguidage orienté de nos choix fonctionnant comme une aliénation à des logiques purement marchandes ou économiques.

nombre
de documents pertinents trouvés lors d'une recherche documentaire et le
nombre total de documents pertinents existant dans le système – See
more at:
http://www.adbs.fr/taux-de-rappel-18792.htm?RH=OUTILS_VOC#sthash.pwUcmxi9.dpuf
nombre
de documents pertinents trouvés lors d'une recherche documentaire et le
nombre total de documents pertinents existant dans le système – See
more at:
http://www.adbs.fr/taux-de-rappel-18792.htm?RH=OUTILS_VOC#sthash.pwUcmxi9.dpuf

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut