Les voies de la pertinence sont impénétrables

En écho plus qu’en réponse au débat entamé ici avec Jean-Michel Salaun et d’autres, ce site vous permet d’interroger "en aveugle" les trois grands (Google, Yahoo et Microsoft) pour évaluer lequel est le plus pertinent (sur la base des trois premiers résultats affichés). Les résultats sont pour l’instant sans appel, Google raflant 42% des voix, contre 32% et 26% à respectivement Yahoo! et MSN. Pour participer au blind-test c’est par là (seule votre première évaluation sera comptabilisée mais vous pouvez vous "amuser" aussi longtemps que vous le souhaitez)
Se retrouver en situation "d’évaluateur de pertinence" est, sauf à parvenir à faire totalement abstraction de toute subjectivité, relativement complexe sur le plan cognitif, et sujet à nombre de biais. Je m’explique via un exemple sur le requête "document numérique" :
Blindtest_2

  • Le moteur X me renvoie en premier une page "blanche", suivie d’une page effectivement pertinente (manifestation scientifique sur le thème du document numérique), et d’une page d’Affordance contenant une rubrique idoine, mais qui – au-delà de la satisfaction personnelle de son auteur (moi 😉 de se voir ainsi "classé", n’est cependant pas des plus "pertinentes", d’autant que …
  • le moteur Y me renvoie lui vers un article de Mickael Buckland, éminent universitaire et théoricien (entre autres) du document numérique. TRES pertinent donc. Mais (et j’avais omis de le signaler), le blind test offre la possibilité d’indiquer que l’on souhaite faire une recherche sur des termes non-anglophones (ce que j’ai fait). Dans ce cas, et bien que les résultats 1 et 3 du moteur Y soient pertinents dans l’absolu, ils n’en sont pas moins "à côté de la plaque" si je suis un lecteur non-anglophone (ou pourra chipoter sur le fait que l’un des deux termes de ma requête est bilingue : ‘document’). Classer comme le plus pertinent un moteur qui fait fi de mes critères de recherche est tout de même problématique.
  • Le moteur Z quant à lui me renvoie effectivement vers deux sites pertinents, mais offre un doublon sur trois résultats. Ce qui n’est pas très pertinent, d’autant que le premier résultat est celui doublonné et renvoie vers la page (pas pertinente) des ‘instructions aux auteurs’ de la revue ‘Document numérique’ (pertinente).

Alors pour qui ai-je voté ???

  • pour le moteur X si je suis un peu égocentrique et laisse mon ego se satisfaire d’une citation de "mon" site juste derrière le très pertinent site de la SDN (semaine du document numérique) et bien qu’1 résultat sur 3 pointe vers une page "blanche".
  • pour le moteur Y si j’accepte d’oublier les paramètres (linguistiques) de ma requête et me satisfais de résultats anglophones pertinents là où j’étais parti en quête de résultats francophones.
  • pour le moteur Z si je laisse mon ego de côté, me conforme aux paramètres linguistiques, et me satisfais d’un inutile doublon.

On le voit, la pertinence que l’on est invité à valider via ce blind-test est donc toute subjective et relative (et donc nécessairement biaisée même si elle permet de faire émerger une "tendance" permettant de classer les moteurs). De fait, et à l’inverse des mesures statistiques fiables que sont le taux de rappel (rapport entre le nombre de documents pertinents affichés et le nombre de documents pertinents existant) et le taux de pertinence (rapport entre le nombre de documents pertinents extraits et le nombre total de documents extraits), la pertinence absolue n’existe pas car elle est fonction de mon propre niveau de connaissance (=ce qui est pertinent pour moi ne l’est pas forcément pour mon voisin) et de plus, elle évolue dans le temps (=ce qui est pertinent aujourd’hui ne le sera pas nécessairement demain). "L’idéal" de pertinence ou le "PPCM" (Plus Petit écart entre un Chercheur et un Moteur) de la pertinence serait donc :

  • le meilleur rapport entre des taux de rappel et de pertinence eux-mêmes optimums (Google)
  • la possibilité (via un curseur ?) de personnaliser les résultats selon mes préférences et mes propres centres de recherche (Yahoo! et Google – en bêta-)
  • une clusterisation contextuelle à la volée (Exalead et en beaucoup beaucoup moins bien, MSN)

Pour ce qui est de l’impertinence des moteurs, ou leur irrévérence c’est encore et toujours une question de point de vue 😉 …
Et puis dans la série "méditons sur la pertinence", pour la requête "nazi", et entre une page du site d’un musée d’histoire affichée en premier sur l’interface Google.de ou celle du parti nazi américain, également affichée en premier mais sur cette fois Google US, quelle est la plus pertinente ???

(via Abondance)

3 commentaires pour “Les voies de la pertinence sont impénétrables

  1. Sans doute les questions sont complexes, mais à mon avis guère plus que celles posées par les premières études d’audience de la TV.
    Voir par ex : Michel Souchon, Petit écran grand public, Documentation française, 1980.
    Un pb est que les internautes oublient ce qui n’est pas (encore ?) en ligne. Mais l’histoire des médias est pleine de leçons utiles.
    Dans ces affaires le plus important n’est pas la précision et la justesse des mesures, mais un consensus des parties concernées sur une mesure acceptable par, sinon tous, du moins suffisamment pour faire “jurisprudence” et être prise pour étalon, à la fois dans les dimensions politiques, socio et économiques. Il faut en effet d’un côté la crédibilité, de l’autre la possibilité de l’échange monétaire.
    Il faut donc beaucoup de débats, un peu de technique, pas mal de socio et de gestion et trouver les meilleurs (moins mauvais) indicateurs pour la régulation.

  2. Plutôt d’accord avec vous (cf mes points de vue orientés juridique sur MSN Search
    http://www.precisement.org/blog/article.php3?id_article=70
    et Yahoo Search
    http://www.precisement.org/blog/article.php3?id_article=11).
    Cependant, j’apprécie peu la “clusterisation”. Et dans mon domaine (le droit français, donc), seule la “clusterisation” d’Exalead est pertinente. Mais pour un professionnel du droit, elle reste et restera selon toute probabilité insuffisante. Pourquoi insuffisante ? Parce même un documentaliste juridique connaissant très bien ses “clients” ne devine pas souvent ce qu’ils cherchent exactement.

  3. Emmanuel> Concernant Exalead, c’est vrai qu’en droit (ou dans d’autres domaines que j’ai pu observer) ils restent les plus “pertinents”. Avec quand même une mention plus qh’honorable à Vivissimo que j’ai oublié de mentionner dans mon billet. Et envisagée seule la clusterisation reste effectivement insuffisante. C’est l’un des volets du petit tryptique de la recherche que j’ai esquissé.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut