Deux collègues de l’Oreille tendue, Geoffrey Rockwell (University of Alberta) et Stéfan Sinclair (McGill University), ont créé un logiciel de visualisation et d’analyse de textes.
Vous allez sur le site de Voyant Tools («a web-based reading and analysis environment for digital texts»), vous téléversez du texte, puis vous consultez les résultats.
L’Oreille tendue, qui ne comprend pas grand-chose à ce genre de représentation des textes, y a téléchargé tout le contenu de ce blogue, du 14 juin 2009 au 23 avril 2015. Résultats ?
Le blogue compte au total 540 521 mots; 48 227 seraient des «unique words». On peut les regrouper en nuage, selon leur fréquence (voir ci-dessus). C’est en 2013 que l’Oreille a été la plus prolixe (114 581 mots). Quand on en exclut un certain nombre d’éléments (prépositions, conjonctions, dates, etc.), le vocabulaire est dominé par un mot, «Montréal» (2093 occurrences). Cela s’explique en partie parce que beaucoup de textes publiés dans cette ville sont cités sur le blogue.
En 2012, parmi les «distinctive words», ceux qui ressortent du lot de façon étonnante sur le plan statistique, il y a eu «Charest», du nom du premier ministre de l’époque. En 2015 — mais l’année est jeune —, il s’agit plutôt de mots liés au hockey : «Maurice», «Richard», «Campbell», «émeute».
La rubrique la plus intrigante est «Highest vocabulary density». Explication de Stéfan Sinclair, consulté pour l’occasion : «C’est un ratio qui exprime le nombre de mots uniques par rapport au nombre total de mots. Plus la valeur est haute, plus on peut prétendre que le vocabulaire est divers.» L’Oreille pourrait s’inquiéter : elle a atteint sa plus haute densité lexicale… en 2009. Heureusement, 2015 arrive en deuxième position.
Il y a encore de l’espoir.
P.-S. — Pourquoi l’Oreille a-t-elle utilisé le mot «culture» plus souvent en 2014 que durant toutes les autres périodes («Words with notable peaks in frequency across the corpus») ? Elle ne sait vraiment pas.
Cette œuvre est sous Licence Creative Commons Internationale Attribution-Pas d'Utilisation Commerciale 4.0.