Pourquoi consulter l’Oreille tendue ?

Logo, Charles Malo Melançon, mars 2021

Pour savoir comment utiliser sic [sic]

Pour découvrir d’où vient malaisant

Pour s’interroger sur le genre du mot thermos

Pour s’interroger sur le genre du mot autobus

Pour comprendre le mot pantoute

Pour reconnaître une germaine

Pour ne pas confondre gosses et gosses

Pour s’assurer que tout est tiguidou

Pour sacrer à bon escient

Pour se distinguer

P.-S.—Oui, ce sont, dans l’ordre décroissant, les dix articles du blogue les plus populaires de 2017.

P.-P.-S.—Le moins populaire ? De ce côté.

Autoanalyse assistée

Les mots de l’Oreille tendue selon Voyant Tools

 

Deux collègues de l’Oreille tendue, Geoffrey Rockwell (University of Alberta) et Stéfan Sinclair (McGill University), ont créé un logiciel de visualisation et d’analyse de textes.

Vous allez sur le site de Voyant Toolsa web-based reading and analysis environment for digital texts»), vous téléversez du texte, puis vous consultez les résultats.

L’Oreille tendue, qui ne comprend pas grand-chose à ce genre de représentation des textes, y a téléchargé tout le contenu de ce blogue, du 14 juin 2009 au 23 avril 2015. Résultats ?

Le blogue compte au total 540 521 mots; 48 227 seraient des «unique words». On peut les regrouper en nuage, selon leur fréquence (voir ci-dessus). C’est en 2013 que l’Oreille a été la plus prolixe (114 581 mots). Quand on en exclut un certain nombre d’éléments (prépositions, conjonctions, dates, etc.), le vocabulaire est dominé par un mot, «Montréal» (2093 occurrences). Cela s’explique en partie parce que beaucoup de textes publiés dans cette ville sont cités sur le blogue.

En 2012, parmi les «distinctive words», ceux qui ressortent du lot de façon étonnante sur le plan statistique, il y a eu «Charest», du nom du premier ministre de l’époque. En 2015 — mais l’année est jeune —, il s’agit plutôt de mots liés au hockey : «Maurice», «Richard», «Campbell», «émeute».

La rubrique la plus intrigante est «Highest vocabulary density». Explication de Stéfan Sinclair, consulté pour l’occasion : «C’est un ratio qui exprime le nombre de mots uniques par rapport au nombre total de mots. Plus la valeur est haute, plus on peut prétendre que le vocabulaire est divers.» L’Oreille pourrait s’inquiéter : elle a atteint sa plus haute densité lexicale… en 2009. Heureusement, 2015 arrive en deuxième position.

Il y a encore de l’espoir.

P.-S. — Pourquoi l’Oreille a-t-elle utilisé le mot «culture» plus souvent en 2014 que durant toutes les autres périodes («Words with notable peaks in frequency across the corpus») ? Elle ne sait vraiment pas.