Ils ont trouvé la méthode idéale pour retranscrire les archives secrètes du Vatican !

Crédits : Archivum Secretum Vaticanum

Des chercheurs italiens ont élaboré une technique de reconnaissance de caractères très intéressante, car reposant sur la décomposition des lettres en plusieurs éléments. Cette méthode a été utilisée pour retranscrire une partie des archives secrètes du Vatican.

Les archives secrètes du Vatican, renfermant le contenu des courriers échangés au Moyen-Âge entre l’Église catholique et les souverains européens, représentent 85 km de rayonnage dont une immense partie n’a jamais été dévoilée au public. Les anciens manuscrits en latin sont en accès limités et sont très difficilement lisibles, ce qui demande un long travail de retranscription.

Le Registre des Lettres Papales contenant 18 000 pages vient de faire l’objet d’une tentative de retranscription via une méthode inédite, mise au point par des chercheurs de l’Université de Rome 3 (Italie) dans le cadre du projet In Codice Ratio. Dans leur publication du 8 mars 2018, les chercheurs indiquent avoir entraîné un algorithme d’apprentissage automatique. Cependant, cette technique serait en rupture avec celles utilisées habituellement pour reconnaître les mots.

Selon les chercheurs, les irrégularités dans l’écriture des manuscrits, les abréviations et autres ligatures impliquent l’utilisation d’une autre technique. Par exemple, le mot latin « anno » peut être confondu avec d’autres mots qui n’existent même pas tels que « aiino », « aniio » ou encore « ainio ». Il y a également le fait qu’un nombre important de mots apparaissent trop rarement pour permettre d’entraîner l’algorithme.

Ainsi, les chercheurs ont demandé à 120 étudiants romains de retranscrire manuellement chaque mot manuscrit de deux pages du corpus, c’est-à-dire environ 15 000 caractères. À partir de ce coup de pouce, l’algorithme a pu analyser le tout. Le but était de découper les mots en différents segments ne correspondant ni aux lettres ni en syllabes. Étonnant n’est-ce pas ?

Ainsi, si les techniques classiques découpent le mot « dato » au niveau des lettres, il est par exemple ici question de supprimer la barre horizontale du « t » ou encore la barre verticale du « d ». Il s’agit de comprendre si l’algorithme pourra déduire quelque chose de juste grammaticalement. Par exemple, le but recherché est de faire en sorte que si le programme comprend « iii », celui-ci puisse déduire que cela n’existe pas et tente de sélectionner une alternative parmi « m », « in » ou encore « ni » suivant le contexte.

Concernant l’ensemble du corpus de 18 000 pages du Registre des Lettres Papales, 65 % des mots manuscrits ont été retranscrits de manière exacte et 20 % grâce aux méthodes classiques. Cela est très encourageant pour de premiers résultats, et les chercheurs désirent maintenant façonner leur programme afin que celui-ci puisse faire face aux autres subtilités des manuscrits telles que les abréviations, utilisées à l’époque par les copistes pour gagner du temps.

Sources : MIT Technology Review – Sciences et Avenir