Yann Sambuis Digital History: décembre 2010

lundi 13 décembre 2010

Visibilité en ligne et connaissance de l'internet grand public : pourquoi j'utilise Google.

S’il est une firme dont l’emprise sur la société contemporaine et l’aspect tentaculaire et monopolistique peuvent faire peur, c’est bien Google.

Alors que son moteur de recherche tend de plus en plus à devenir la référence unique sur le web – au point que, comme le note Patrick Leary[1], to google est devenu le terme générique pour désigner le fait d’effectuer une recherche en ligne sur un moteur généraliste –, l’entreprise amasse au jour le jour une quantité effrayante d’informations sur ses usagers. Sujets de prédilection, données personnelles, tout y passe. Et lorsqu’on l’accuse de porter atteinte à la vie privée des internautes, le fondateur de la firme répond que seule une personne qui a quelque chose à se reprocher a intérêt à protéger ses données personnelles[2]. En soi, ces raisons éthiques et morales seraient suffisantes pour refuser d’utiliser Google. D’autant que, pour les historiens que nous sommes, les algorithmes du moteur de recherche de référence sont, à part lorsqu’on recherche une information simple et immédiate, rarement efficaces, puisque leurs critères de pertinence ne sont pas les nôtres, loin s’en faut. Pourtant, même si je sais que cela ne m’apportera pas les réponses que j’attends en tant qu’historien, chacune de mes recherches en ligne commence sur google.fr, et je vais de ce pas vous expliquer pourquoi.

Ce choix, dont nous avons brièvement débattu récemment dans le cadre du séminaire d’histoire numérique de Christian Henriot, s’est heurté aux réticences de plusieurs de mes interlocuteurs, soulevant plusieurs objections, la plupart extrêmement pertinentes. Je n’ai pas changé d’avis pour autant.

Le lecteur retrouvera certainement ici le « populisme intellectuel » de mon article sur la télévision, ou, si l’on préfère cette volonté de voir l’historien s’engager dans la société et, partant, la connaitre et la comprendre. En effet, lorsque je recherche sur le web des informations sur un sujet historique, je me pose en permanence la question : « qu’aurait trouvé un amateur ? ». Or il est fort probable que ledit amateur utilise Google (ou Bing, ou Yahoo, là n’est pas l’objet de ce billet). Si nous nous fixons comme objectif d’agir dans la société – et pour elle – par la promotion d’une culture historique de qualité, culture que nous jugeons indispensable à toute compréhension fine du monde actuel, il importe donc de repérer les pièges du web grand public et à terme d’apprendre à les déjouer.

Utiliser Google, c’est donc avant tout apprendre à connaitre notre « environnement » en tant qu’historien numérique. C’est comprendre la structure tentaculaire au sein de laquelle s’inscrit notre action. C’est ainsi par la pratique qu’on parviendra à la maîtrise du mode de fonctionnement de Google, notamment en ce qui concerne le référencement des pages et le tri des résultats d’une recherche. En effet, quel intérêt peut avoir la tenue d’un blog ou la création d’un site adressé au grand public, si celui-ci ne peut pas y accéder, ou plutôt s’il est dans l’impossibilité de connaitre son existence ? N’est-il donc pas essentiel d’accepter dans une certaine mesure de nous plier aux règles imposées par Google et ses concurrents, même si l’on rejette par ailleurs ce que représente la firme américaine (ou ses concurrents, une fois de plus) ? Sans pour autant inviter l’historien à se prostituer aux multinationales du net, je défends donc un « entrisme raisonné ».

Si j’utilise le terme d’entrisme, je ne me fais pas d’illusions pour autant. Le but n’est pas ici de modifier le mode de fonctionnement de Google – les historiens auraient bien de la peine à réussir là où les dirigeants chinois ont échoué – mais d’atteindre une meilleure visibilité en « infiltrant » les mécanismes de tri des données des moteurs de recherche. Ainsi, dans le cas de Google, leader du secteur, on peut par exemple utiliser Blogger ou Google Docs, la firme ayant tendance à privilégier les pages issues de ses propres serveurs. De plus, le blogueur peut essayer de saupoudrer sa prose de mots clefs, c'est-à-dire de termes susceptibles d’être entrés dans la barre de recherche par un curieux. Ainsi, préciser en les reformulant de différentes manières les thématiques principales d’un site sur une page d’accueil peut permettre d’être mieux référencé. Par exemple, dans le cas de mon M1, intitulé Lyon, Herriot, les droites.1953-1956, je tente de faire apparaître le plus possible les « tags » que sont les mots « droite », « droites », « Lyon », « lyonnais », « lyonnaise », etc sur la page où mon mémoire est publié en ligne.

Même si ma réflexion sur ce point n’en est qu’à ces débuts et que les techniques que j’ai fait émerger sont encore rudimentaires, je suis persuadé que la connaissance poussée des mécanismes de l’internet grand public est une des clefs de l’histoire numérique. Les historiens ne doivent pas commettre avec internet la même erreur qu’avec la télévision. Il est absolument nécessaire d’occuper le terrain de la vulgarisation et de la culture historique grand public, sous peine de le voir confisquer par des amateurs maladroits, des idéologues ou, pire peut-être, de laisser là aussi la mémoire prendre le pas sur l’histoire.

PS : J'aimerais bien savoir qui a commenté mon billet sur Herriot et les pièges du net, le commentaire était intéressant et j'aurais bien poursuivi la discussion en privé.

[1] Patrick Leary, “Googling the Victorians”, Journal of Victorian Culture 10:11, 72-86,

[2] Lors d’une interview sur CNBC, voir la vidéo sur Youtube.

lundi 6 décembre 2010

Premiers pas : Edouard Herriot et les pièges du net

« Premiers pas » : ça aurait pu être le nom d’une nouvelle couche Pampers, mais non, c’est une rubrique d’histoire numérique, que j'ai décidé de mener cette semaine sur le ton de l'humour. Le principe : tenter de déjouer les pièges du net pour trouver des informations sur un objet historique. Pour ce premier essai, j’ai donc choisi – roulements de tambour – Edouard Herriot. Oui, je sais, c’est pour le moins inattendu. Rentrons donc sans attendre dans le vif du sujet.

Premier humour

Prenons donc un historien amateur débutant. Pour plus de facilité, nous l’appellerons Lucas – c’est un clin d’œil au public des couches Pampers, qui a sans doute été un peu déçu après un titre prometteur. Lucas désire donc trouver des informations sur son idole, la légende du radicalisme lyonnais, Edouard Herriot. Oui, Lucas est un jeune homme fantasque. Aidons donc Lucas dans ses recherches…

Homonymie

Première étape, Lucas veut découvrir qui est Edouard Herriot. En effet, il ne connait pour l’instant de son idole que le visage moustachu accompagné d’une liste impressionnante de titres – de « maire de Lyon » à « Président de la Chambre » en passant par « Président du Conseil » – qui semble jaillir du mur d’enceinte du cimetière de Loyasse. Suffisant pour faire naître une passion dévorante, mais un peu léger pour assouvir la soif de connaissance qui s’ensuit. Comme tout internaute qui se respecte, Lucas ouvre donc son navigateur faisant apparaitre sa page d’accueil : ~~lequipe.fr~~ Google. Là, sûr de son fait, il tape dans la barre de recherche : « Herriot ». Sans le savoir, Lucas vient de tomber dans un des pièges les plus redoutables du web : l’homonymie. En effet, au lieu de lui proposer une biographie de celui qui fut maire de Lyon de 1905 à 1957 – exception faite, bien sûr, des années de l’Occupation –, son navigateur n’a d’yeux que pour James Herriot, célèbre vétérinaire et écrivain anglais de la fin du siècle dernier. Lucas apprend de son échec l’importance de la précision de la requête, surtout lorsqu’on recherche un nom propre. Il retente donc sa chance en écrivant cette fois « Edouard Herriot ». Bien sûr, il lui reste à faire le tri entre l’homme et les divers établissements qui portent son nom, mais la plupart des réponses sans rapport avec le leader radical ont disparu.

Pertinence, référencement et vérité vraie : Wikipédia ou les malheurs de la vertu historienne…

Comme nous l’avons dit, Lucas est un débutant. Il est donc normal qu’il fasse dans un premier temps des erreurs de débutant. Il est en effet une sirène au chant si doux que même le plus vaillant des chercheurs se laisse parfois tenter : Wikipédia. Ne versons pas ici dans la critique facile. Il est vrai que plusieurs témoins affirment avoir trouvé sur la célèbre encyclopédie en ligne des articles justes, précis, bien documentés et citant leurs sources. Sur Cristiano Ronaldo, notamment. Mais dans le cas qui nous intéresse, pas de chance, l’article sur Herriot est plein d’erreurs (environ autant que de dollars sur le compte en banque de Bill Gates). Au point que j’en ai même été choqué, et que je n’en tire qu’une conclusion : n’utilisez Wikipédia que si vous êtes sûr de pouvoir vous-même écrire l’article que vous désirez consulter.

Heureusement, nous sommes là pour guider Lucas, et nous lui expliquons que le référencement d’une page sur Google ne dépend en rien de sa qualité et de sa légitimité, mais seulement du nombre de fois où elle a été vue, or Wikitruc jouit malheureusement d’une très grande réputation chez les internautes. Pour une première approche biographique, nous conseillons donc à Lucas de tourner vers des articles dont on sait, à défaut d’en connaître l’auteur, qu’ils ont été vérifiés par des personnes compétentes. C’est le cas –on peut du moins l’espérer – des bases bibliographiques de l’Assemblée Nationale , des Archives de Lyon et de l’Académie Française. On trouve, notamment pour le premier des trois sites susnommés, de très bonnes indications biographiques, incluant même, toujours pour le site de l’Assemblée Nationale, une vidéo.

Cette vidéo nous donne l’idée de conseiller à Lucas d’aller faire un tour sur Google Images et Google Vidéos. D’une part, cela permet de mieux se représenter l’homme derrière la fonction, de mettre un visage et une voix sur le nom Edouard Herriot. D’autre part, les vidéos, notamment, donnent une bonne idée de l’aura du personnage dans les dernières années de sa vie. Sur ce point, Google nous redirige d’ailleurs sur le site de l’INA, ce qui est une très bonne chose, puisqu’on y trouve de très nombreuses vidéos d’archive sur Herriot.

Doudou : un homme rare et discret

Lucas l’a remarqué, Herriot est un homme discret, au sens où il est difficile de trouver des informations à son sujet sur le net sans savoir où chercher. Après l’avoir laissé patauger un moment, donnons-lui quelques pistes…

Sur Herriot, on trouve avant tout en ligne des références bibliographiques. Ainsi, le moyen le plus efficace d’obtenir des informations est sans doute de chercher des titres sur un catalogue en ligne comme celui du SUDOC (à condition d’avoir accès aux bibliothèques universitaires) ou de la Bibliothèque municipale de Lyon. On pourra aussi chercher des articles sur des sites comme revues.org, Persée ou Cairn, qui mettent en ligne les articles concernés.

Deuxième type d’informations, les archives accessibles en ligne. En effet, les Archives municipales de Lyon ont mis gratuitement à disposition des internautes les archives des délibérations des Conseils municipaux. Les archives du Bulletin officiel de la ville devraient suivre bientôt.

Troisièmement, internet permet d’entrer en contact avec des personnes qui connaissent bien le sujet, notamment l’association des Amis d’Edouard Herriot et le Cercle Edouard Herriot, qui en est l’émanation.

Enfin, j’ose en toute modestie signaler que mon mémoire de M1, Lyon, Herriot, les droites. 1953-1956, est disponible en ligne au format PDF ici.

En résumé

Lucas a donc appris à se méfier des pièges de Google et de Wikipédia. Nous publions en accord avec lui les pistes de recherche qu’il a retenues :

Herriot sur le net, c’est :

Des biographies sommaires, sur le site de l’Assemblée Nationale notamment et en évitant Wikipédia.
Des images et vidéos d’archives, accessibles soit par les moteurs dédiés de Google, soit directement sur le site de l’INA, pour les vidéos.
Des références bibliographiques sur des catalogues en ligne d’ouvrages ou d’articles.
Des archives en ligne, sur le site des Archives municipales de Lyon, notamment.
Des personnes qui s’intéressent au sujet et créent des sites dédiés.
Des travaux publiés en ligne. Même si pour l’instant il n’y a que mon mémoire de M1, la mise en place prochaine d’un site d’histoire de Lyon pourrait améliorer la situation.

Comme quoi, malgré le faible nombre de résultats pertinents sur Google, on peut, même pour un sujet « rare » en ligne comme Herriot, trouver beaucoup de choses lorsqu’on sait où chercher. N'est-ce pas, Lucas ?

TagCrowd + Google Timeline

Au programme cette semaine, deux objets très différents. Tout d’abord, nous nous pencherons sur TagCrowd, un outil qui permet de créer des « nuages de tags » à partir d’une page, d’un texte ou d’un site. Ensuite, nous nous intéresserons plus brièvement à Google Timeline, la page qui retrace l’histoire du géant du net.

TagCrowd

Pour ce premier test, je me suis posé la question suivante : Dans quelle mesure cet outil peut-il enrichir un projet d’histoire en ligne (site ou blog) ?

TagCrowd est un outil qui permet de créer des « nuages de tags », comme on en trouve sur de nombreux sites, c'est-à-dire de présenter une accumulation de mots présents sur une page web, la taille du caractère utilisé variant selon le nombre d’occurrences. Sur le principe, l’idée est bonne et a fait ses preuves : un mot qui apparait plusieurs fois a une probabilité forte d’être un point important d’un sujet. Le nuage de tags suggère ainsi à l’internaute d’autres sujets, auxquels il n’avait pas forcément pensé en entrant sur la page, ce qui l’incite à naviguer à l’intérieur du site (ou du blog, dans notre cas), à l’inverse de la plupart de liens hypertextes inclus dans les articles, qui envoient souvent l’internaute vers d’autres sites. Pour les sites commerciaux, l’intérêt sera de garder le visiteur sur le site, plus de temps passé et de pages vues impliquant un meilleur rendement (publicité, vente de produits…). Pour nous, le nuage de tags offre à l’internaute l’opportunité de découvrir d’autres articles, d’autres pans de la connaissance historique.

Au départ, l’idée est donc bonne, puisqu’elle peut nous permettre de donner, par cette invitation à la navigation en interne, une nouvelle profondeur à un projet d’histoire numérique.

Rapidement, on se heurte cependant à quatre problèmes principaux.

Tout d’abord, les tags du nuage créé avec TagCrowd ne comportent pas, contrairement à ce qu’on voit souvent, de lien vers les articles où se trouvent ces mots. Autrement dit, si je clique sur le mot « Google », qui est le nuage créé à partir de mon blog, il ne se passe rien. Je ne suis pas redirigé vers une liste des articles contenant ce mot. C’est là un défaut regrettable, car il ôte au nuage de tags une grande part de son intérêt.

Deuxième problème, TagCrowd n’est pas très efficace lorsqu’il s’agit de traiter des textes en français. Alors qu’en anglais, il regroupe les mots de la même famille (singulier et pluriel d’un même mot, conjugaisons d’un même verbe…), il en est incapable dans la langue de Molière (qui est aussi celle de Corneille et de Racine, mais nous n’avons malheureusement pas le temps de débattre de ce point ici, bien que la confiscation d’une langue par un auteur, fût-il aussi talentueux que l’auteur du Misanthrope, soit sans doute un des plus grands scandales de notre histoire, nous y reviendrons). Le programme ne fait pas non plus le tri des mots importants, même si on peut définir une liste de mots à ne pas retenir (typiquement, les articles, prépositions, etc.). Ainsi, un système de reconnaissance des substantifs aurait été d’un intérêt certain.

Troisième point négatif, le nuage de tags créé ne se met pas à jour. Il est donc nécessaire d’en créer un nouveau à chaque mise à jour du site. D’autant que, sauf erreur de ma part, les listes de mots non pris en compte s’effaçant au bout d’une semaine, le travail sera à chaque fois fastidieux.

Enfin, dernier problème, je n’ai pas réussi à faire fonctionner l’export en html. En même temps, comme les trois premiers problèmes cités avaient ôté à peu près tout l’intérêt de TagCrowd, je n’avais pas vraiment l’intention de m’en servir.

Conclusion

On est donc face à une très bonne idée, malheureusement desservie par un programme souffrant de nombreux défauts. Si le nuage de tags est un objet très intéressant par les opportunités de navigation interne transversale au site qu’il offre, il faudra, pour en créer un, se tourner vers un système plus efficace que TagCrowd.

Les + :

L’idée.

Les moins :

Le traitement des textes, surtout en français. Le nuage de tags « statique » (sans mises à jour ni liens hypertextes). L’export en html.

Edit : Je me rends compte à la lecture du billet de François-Xavier que je n'ai pas pris en compte la possibilité d'utiliser TagCrowd comme outil d'analyse de texte... Mea culpa. On jettera donc utilement un coup d'oeil à son article sur le sujet.

Post-scriptum : Google Timeline

Pour finir, jetons un œil du côté de Google Timeline. Avec cette page amusante, qui fonctionne comme une frise chronologique (timeline) interactive, Google apporte sa pierre à l’histoire numérique, cette fois-ci non pas en proposant un outil, mais en nous présentant sa propre saga.

Google Timeline se présente donc comme une frise qu’un curseur en bas de page nous permet de faire défiler (on remarque d’ailleurs un bug : les dates de la barre de navigation et de la frise concordent mal). Pour les premières années, chaque « case » de la frise représente un an, puis diminue pour arriver à un trimestre en 2004. En tête de chacune de ces cases, apparaît aléatoirement un « doodle », c’est-à-dire l’une des nombreuses variantes conjoncturelles du logo du groupe créées pour célébrer des événements particuliers. Sur la frise, des événements qui ont marqué l’histoire de Google apparaissent, ainsi que des informations sur l’évolution du groupe. Les différentes catégories d’informations (statistique, anecdote, etc.) sont identifiées par des pictogrammes. Lorsqu’on survole un événement avec le pointeur, un encart apparaît, donnant plus de détails et proposant éventuellement des liens vers des archives (articles de revues mentionnant un tournant dans l’histoire du groupe, captures d’écran d’une ancienne page d’accueil…).

Bien sûr, les événements sont sélectionnés avec soin. Nulle part, il n’est fait mention de la première condamnation du groupe pour atteinte à la vie privée, concurrence déloyale, etc. Mais l’aspect ludique et interactif, et la volonté d’appuyer le propos par des archives peuvent être de bonnes pistes d’inspiration pour créer des sites éducatifs en histoire.

samedi 4 décembre 2010

Edouard Herriot en vidéo

Je me suis amusé à chercher quelques vidéos d'Edouard Herriot sur le site de l'INA. La playlist est disponible ICI.

Pages

Sujets