La classification des textes

Comment trouver le meilleur classement possible au sein d’une collection de textes ?


Le texte principal de cet article ne demande aucune connaissance en mathématique et statistique. Quelques dépliants contiennent des formules qu’un lecteur pressé peut sauter sans inconvénient.

I l n’est point de secret que le temps ne révèle.
Jean Racine, Britannicus (1669), IV, 4.

1. INTRODUCTION


Comment identifier l’auteur d’un texte d’origine douteuse ou inconnue ? Les anglo-saxons se passionnent pour cette question connue sous le nom de « Authorship attribution » [ 1 ]. Depuis la première étude que le statisticien américain Mendehall a consacrée en 1887 à la longueur des mots chez Shakespeare, Bacon et Marlowe [ 2 ], les statistiques appliquées tiennent une place importante [ 3 ].
Nous proposons ici de considérer la recherche de l’auteur d’un texte comme un cas particulier d’une question plus générale : Comment trouver le meilleur classement possible au sein d’une vaste collection de textes écrits dans une même langue ?
Pour répondre à cette question, deux outils sont nécessaires :
  • un calcul de « distance » entre les textes afin de mesurer précisément la plus ou moins grande proximité (similarité) de chacun des textes par rapport à tous les autres ;
  • des procédures de classification qui, à l’aide des distances, repèrent les « meilleurs groupements possibles » au sein de cette population.

Cet article est consacré à la distance. La seconde question fera l’objet d’un article ultérieur.

La question vous titille ?

 

Cliquez et riez (ou classez).