dimanche 26 décembre 2010

Une banque de livres d'une taille inédite voit le jour

Books Ngram Viewer comprend pas moins de 5,2... (Photothèque Le Soleil)
Québec) Combien de temps une vedette reste-t-elle célèbre? Quelle proportion des mots que nous utilisons figure au dictionnaire? Grâce à un nouveau corpus
de livres d'une taille inouïe, qui regroupe près de 5 % de tous les bouquins jamais publiés (!) et qui est accessible sur Internet, il est maintenant plus facile que jamais de répondre à ces questions. Et un jeune Québécois de 21 ans fait partie des signataires de l'article qui a décrit ce nouvel outil dans Science, juste avant Noël.

Mené par des chercheurs de Harvard, des employés de Google et un informaticien du Massachusetts Institute of Technology, le projet vise à «permettre l'étude de tendances culturelles de manière quantitative», écrit le collectif dans son article. Et avec pas moins de 5,2 millions de livres numérisés, ou environ 4 % de toutes les oeuvres publiées depuis l'invention de l'imprimerie, disons qu'il y a de quoi s'amuser...
L'outil, poétiquement nommé Books Ngram Viewer, est accessible à l'adresse www.ngrams.goo glelabs.com.
Le plus clair du corpus est en anglais (361 milliards de mots sur plus de 500 milliards), mais l'échantillon français s'élève tout de même à 45 milliards de mots, ex aequo avec l'espagnol. Les autres langues sont l'allemand, le russe, le chinois et l'hébreu. Il suffit de saisir le ou les mots à investiguer pour que l'outil sorte instantanément leur fréquence, c'est-à-dire la proportion de tous les mots écrits dans des livres. Par exemple, en 2008, le mot homme a composé environ 0,005 % de tous les mots publiés dans des livres en français, soit grosso modo deux fois plus que le motfemme (0,025 %) - mais cet écart s'est réduit depuis le milieu du XIXe siècle, alors qu'homme était 3,5 fois plus fréquent que femme.
Étude de la célébrité
Parmi les applications possibles, l'une des plus fascinantes est l'étude de la célébrité. Et c'est justement de cette partie qu'Adrian Veres, de Montréal, a été chargé de s'occuper. C'est parce qu'il étudie en chimie et physique à Harvard - quand on est mal parti dans la vie... - qu'il a été amené à rencontrer l'un des dirigeants du projet, Erez Lieberman Aiden, doctorant en mathématiques à Harvard.
«Quand je me suis joint au projet, l'outil était en grande partie terminé. L'interface existait, la banque de données avait été créée, et les problèmes légaux avaient été écartés [des questions de droits d'auteur empêchent de chercher des groupes de plus de cinq mots]. Ce qu'il restait à faire dans la dernière année, c'était de montrer quel genre de recherche on peut faire avec cette nouvelle technologie, et ma contribution, ça a été de travailler sur la célébrité», a expliqué M. Veres au Soleil lors d'un entretien téléphonique.
Il a donc pris comme point de départ les 740 000 noms de personnes répertoriés dans Wikipédia, les a classés par année de naissance (de 1800 à 1950 seulement), puis n'a retenu que les 50 noms les plus fréquemment cités dans les livres - Bill Clinton et Steven Spielberg, par exemple, faisaient partie de la cohorte 1946. Il a analysé différentes tendances observables dans cet échantillon, obtenant des résultats étonnants.
Ainsi, lit-on dans l'article de Science, «l'âge du sommet de la célébrité [dans les livres, rappelons-le] est demeuré constant au cours de la période étudiée : environ 75 ans après la naissance. Mais les autres paramètres ont changé. La gloire survient de plus en plus tôt, et l'ascension est de plus en plus rapide : entre le début du XIXe siècle et le milieu du XXe, l'âge du début de la célébrité est passé de 43 à 29 ans». En outre, ceux qui sont nés vers 1800 voyaient la fréquence d'utilisation de leur nom doubler tous les 8,1 ans en moyenne, contre 3,3 ans pour ceux qui ont vu le jour en 1950.
Cependant, a aussi trouvé M. Veres, cette gloire est de plus en plus éphémère : passé le sommet de la célébrité, la fréquence des citations a diminué de moitié tous les 120 ans pour ceux qui sont nés vers 1800, alors que cette «demi-vie», pour reprendre un terme de physique, n'est que de 71 ans pour les cohortes de la fin du XIXe siècle.
Cette analyse a été répétée avec les quelque 42 000 «grands personnages» de l'Encyclopedia Britannica, avec des résultats très semblables : «Les gens deviennent plus célèbres que jamais, mais ils sont aussi oubliés plus rapidement que jamais.»
Parmi différents métiers, ce sont les présidents des États-Unis qui sont devenus les plus célèbres dans les livres anglais, atteignant une célébrité telle que le nom de chacun d'eux revient une fois par million de mots au sommet de sa gloire. Après eux, les noms d'écrivain sont les plus souvent cités, à une fois par 1,25 million de mots. Les acteurs atteignent quant à eux un sommet moyen d'une citation par cinq millions de mots - et malheureusement pour M. Veres, les physiciens les plus célèbres ne font pas mieux qu'une mention par 10 millions de mots...
source:la presse canadienne

Aucun commentaire:

Enregistrer un commentaire