Searchology.

Searchology. Tel est le nom de l'événement au cours duquel Google a présenté de nouvelles options de recherche. La dernière "searchology" s'était tenue il y a deux ans de cela et elle avait vu l'annonce de la recherche universelle.
Petite revue de détail de cette dernière Searchology …

Nota-Bene :

Acte I. You're my Wonder Wheel : une oasis de recherche dans le désert de la catégorisation (clustering).
Il s'agit là d'une représentation cartographique de l'outil de
catégorisation tournant déjà dans Google (affichage tout en haut ou en
bas de la première page de résultats). Ici, Google marque deux points.
Le premier parce que la catégorisation est incontestablement une clé
importante pour le guidage (affinage) des recherches. Or sur ce terrain
Google avait un temps de retard. Le second parce que cette
catégorisation est représentée de manière cartographique. Mais si les
moteurs cartographiques sont bien installés (Kartoo en tête), leur interface
graphique chargée est très souvent déroutante pour l'utilisateur
lambda. Avec sa Wonder Wheel, Google allie la puissance de la
catégorisation et celle de la cartographie mais de manière non-déroutante
pour l'usager, sans que celui-ci ait besoin de faire appel à une
acculturation particulière. Comme le rappele Danny Sullivan dans son billet
la catégorisation avait été "inventée" (dans le monde des moteurs de
recherche) par AltaVista avec son algorithme "Live Topics", notamment
développé par un certain François Bourdoncle, actuel PDG d'Exalead.

Acte II. A la recherche du temps perdu : Google Timeline. Dans toute
activité de recherche d'information, la capacité de replacer une
information en contexte sur une ligne du temps est un énorme avantage
qualitatif qui permet de trancher dans le quantitatif des résultats
délivrés. Le passage des moteurs à l'indexation temps réel ("world live
web") ne doit pas faire oublier l'aspect fondamentalement discriminant
qui permet de disposer d'une archéologie (même sommaire) de
l'inscription numérique des informations diffusées en ligne. C'est
précisément pour répondre à ce besoin que Google propose une
fonctionnalité de type Timeline. Laquelle fonctionnalité est
remarquablement intuitive : l'affichage se fait d'abord par clusters de
"dizaines d'années" pour, en deux clics, permettre de descendre au
niveau du cluster mensuel. Le gros défaut de cette Timeline est qu'elle
ne permet pas réellement de "dater" une information. Elle se contente
de récupérer les "années" figurant dans le corps du texte. Ainsi, je n'ai pas écrit d'articles en Juin 1944,
mais l'un de mes articles (et mon nom) se retrouve dans un recueil qui
comprend également une analyse du discours du 6 Juin 1944. C'est là
tout le problème de l'information "non-structurée" avec laquelle
doivent se débrouiller les moteurs de recherche. Et c'est ce qui
m'amène au troisième point, le moins souligné par les différents
analystes, le moins visible également, mais à mon avis pourtant de loin
le plus important.

Acte III. "Rich snippets" : Google embarque sur le web de données et s'empare des microformats. Ce
n'est là rien moins que l'entrée officielle de Google dans la course au
web sémantique. Dans un article produit à l'occasion du dernier séminaire INRIA j'écrivais ceci :

  • "A
    l’inverse d’une approche descendante impliquant que soient déjà
    franchis les différents obstacles techniques permettant la mise en
    œuvre d’un web totalement sémantique, l’évolution des fonctionnalités
    sémantiques des moteurs de recherche suivra plus probablement une
    approche ascendante, émergente. Il s’agit cette fois de prendre
    progressivement en compte les différentes avancées des protocoles,
    langages et formalismes liés au web sémantique, non pas de manière
    globale mais sur des contenus très ciblés, ou dans le cadre de
    contextes de recherche là encore très spécialisés. En Mars 2008,
    Yahoo ! a ainsi annoncé qu’il prendrait en compte le standard RDF ainsi
    que les microformats. Pour ne prendre que ce dernier exemple, de
    nombreux développements existent actuellement. La dernière course de
    fond engagée par les moteurs consistera donc à en prendre le maximum en
    compte (sans nécessairement attendre une harmonisation globale ou une
    standardisation univoque de l’ensemble des développements  applicatifs
    en cours), tout en trouvant le moyen de s’en servir pour « enrichir »
    l’expérience utilisateur lors d’une recherche d’information, par
    exemple en présentant des résultats de recherche davantage structurés
    ou permettant davantage d’interactions synchrones avec d’autres
    recherches, d’autres services, d’autres terminaux d’accès. Dit
    autrement, les moteurs sémantiques pourraient fournir une solution aux
    limitations de la recherche par mot-clé.
    "

Sur son blog,
Google écrit ainsi :

  • "today we are announcing that some of our snippets
    are going to get richer. These "rich snippets" extract and show more
    useful information from web pages than the preview text that you are
    used to seeing. For example, if you are thinking of trying out a new
    restaurant and are searching for reviews, rich snippets could include
    things like the average review score, the number of reviews, and the
    restaurant's price range (…) In this example, you can quickly see
    that the Drooling Dog Bar B Q has gotten lots of positive reviews, and
    if you want to see what other people have said about the restaurant,
    clicking this result is a good choice. We can't provide these snippets
    on our own, so we hope that web publishers will help us by adopting
    microformats or RDFa standards to mark up their HTML and bring this
    structured data to the surface."

L'enrichissement sémantique des
résultats (rendu possible par l'ajout de microformat du côté des
utilisateurs qui créent les contenus) est la face la plus avancée – et peut-être la plus pragmatique – de la quête
du web sémantique. Une autre approche est l'enrichissement
sémantique des requêtes elles-mêmes (en s'appuyant par exemples sur des
bases de questions).
Quand ces deux approches là seront effectives, c'est à dire probablement dans
quelques – très – courtes années, l'expérience de la recherche
d'information n'aura alors plus rien à voir avec celle que l'on exerce
aujourd'hui. Et de la même manière qu'il est impossible de faire
mesurer à une jeune internaute à quel point la recherche sur Gopher ou
Véronica étaient à des années lumières de ce qu'il connaît aujourd'hui,
la recherche sémantique de demain (après-demain ?) renverra à l'âge de
pierre notre pratique actuelle de la recherche d'information.

2 commentaires pour “Searchology.

  1. Juste pour information, dans le domaine de la fouille de données et des modèles d’organisation d’information, clustering en anglais ne correspond pas à catégorisation mais à classification en français. Dans le sens où le clustering consiste – grossièrement – à créer des classes d’information en fonction de leur similarité ou distance selon k critères). À l’inverse, le terme classification en anglais correspond à la catégorisation en français dans le sens où les informations sont catégorisées dans des catégories preexistantes.
    En gros, ce sont des faux amis. Moi-même je m’y suis faite prendre. (et je ne parle pas de certaines subtilités au niveau de chacune des méthodes qui compliquent encore leur traductions)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Articles similaires

Commencez à saisir votre recherche ci-dessus et pressez Entrée pour rechercher. ESC pour annuler.

Retour en haut