Lundi, 20 Décembre 2010 12:27
Le cours des mots à travers les siècles
En numérisant et étudiant des livres vieux de plusieurs siècles, des chercheurs analysent les changements du vocabulaire comme indicateur des évolutions de la société.
Une science nouvelle
La « culturomique », c’est ainsi que Jean- Baptiste Michel de l'Université de Harvard à Cambridge qualifie cette drôle d’expérience : la numérisation et l’analyse informatique de milliers d’ouvrages.
Pour cela, le chercheur et son équipe se sont servis d’un logiciel pour analyser la gigantesque bibliothèque numérique qu’est en train de créer Google en numérisant un par un les livres édités dans tous les pays.
Les mots au gré des ans
La base de données compte actuellement 15 millions de livres soit deux trillions de mots !, Cela représente environ 12% de tous les livres publiés dans toutes les langues depuis la Bible de Gutenberg en 1450. Les chercheurs ont choisi d’étudier les publications en langue anglaise de 1800 à 2000. Ce qui représente un total de 361 milliards de mots !
Evolution de l'emploi de certains mots entre 1800 et 2000. Image Science/AAAS
Ils ont ainsi pu identifier ceux qui avaient disparu du vocabulaire ou gagné en popularité avec le temps et même repérer près de 500 000 mots qui avaient échappé à tous les dictionnaires. Selon les estimations de l'équipe de recherche, la taille de la langue anglaise a presque doublé au cours du siècle passé, à plus de 1 million de mots. Et le vocabulaire semble se développer plus rapidement que jamais auparavant.
La censure apparaît au grand jour
Un autre aspect intéressant de cette recherche est l’identification des personnes victimes de censure au cours de cette période. Une analyse des noms de personnes qui apparaissent dans les livres allemands dans la première moitié du 20e siècle a révélé l’effondrement de certains noms comme Pablo Picasso (qualifié de dégénéré par le régime Nazi) ou Marc Chagall alors qu’ils restent stables dans le corpus anglais.
Une fois que les chercheurs ont identifié cette signature de répression politique, ils ont analysé la «trace de réputation» de toutes les personnes mentionnées dans les livres allemands sur la même période, en les classant selon un « indice de la répression ». Ils ont envoyé un échantillon de ces noms à un historien en Israël pour validation. Plus de 80% des personnes identifiées par l'indice de répression étaient connues pour avoir été censurées.
Cette méthode a également permis de révéler des cas potentiels de censure qui n’ont pas été identifié comme tel jusqu’à présent.
Marc Chagall, artiste juif, a été censuré par le régime Nazi.Son nom disparaît des écrits allemands pendant le 3ème Reich tandis que sa popularité continue de croître dans les publications en langue anglaise. Image Science/AAAS
Enfin, les chercheurs dans leur publication dans la revue Science font l'hypothèse que des recherches similaires en « culturomique » pourraient révéler bien d’autres courants sociétaux, politiques, culturels, religieux et même sanitaires. Le mot grippe est par exemple largement plus employé durant les périodes de pandémies du XIXème et du XXème siècle.
En sachant que la base de données de Google et d’autres institutions universitaires s’agrandit de plusieurs milliers d’ouvrages chaque jour, les futurs « culturomistes » ont du pain sur la planche !
J.I.Sciences et Avenir.fr17/12/2010
Authors: 1212083.jpg
Read 4781 times
Published in
News Technologique-Tech News
Last WebBuzz
-
WebBuzz du 24/11/2017: Pérou décoller comme superman-Peru Reverse bungee aka Superman Jump
Read 38185 times
-
WebBuzz du 22/11/2017: Une Femme Saoudienne fait du surf dans les rues-Saudi girl Car Surfing after heavy rains and flood in Saudi Arabia
Read 38481 times
-
WebBuzz du 20/11/2017: Maxi crach au grand prix GT à Macau-Huge pile up Crash 2017 Macau Grand Prix FIA GT World Cup
Read 33366 times
-
WebBuzz du 17/11/2017: Boston Dynamics fait le cirque avec ses robots-BD prepare to build a circus with his robots
Read 36146 times
-
WebBuzz du 16/11/2017: Une illusion d'optique féminine-a feminine optical illusion
Read 34187 times
-
WebBuzz du 14/11/2017: Roumanie un bus de police évite un tram de justesse-Close call between a tram and police's bus
Read 30785 times
-
WebBuzz du 13/11/2017: Arrivée fracassante d'un bateau sur les docks de San Diego-Whale Watching Boat Crashing Into San Diego Dock
Read 29018 times
-
WebBuzz du 08/11/2017: Créer des flammes de toutes les couleurs-How to make colourful flames
Read 29847 times
-
WebBuzz du 07/11/2017: Echec test du système de détection des piètons de la Volvo S60-Volvo S60 Pedestrian Detection System Test failed
Read 31188 times
-
WebBuzz du 03/11/2017: Slacker dans la forêt-slackline in the forest
Read 33659 times
Accusé de reception
bancaires
bilan
cheval
configuration
Confirmation de lecture
copie
copies
Dolibarr
duplicata
EDF
Excel
exim
facture
factures
Firefox
Google cloud print
hameçonnage
IE6
IE7
impression
informatique
itunes
java
linux
luxembourgeois
mac os
MAJ
micosoft
microsoft
Office
Outlook
phishing
quicktime
rappels
relances
seamonkey
serveurs
spécifique
Sécurité
Tentative
thunderbird
troie
utilisant
V322
Vista
Windows
Windows 7
XP/2000 : Activer le pavé numérique
établissements