HIMANIS

Titre long
HIstorical MANuscript Indexing for user-controlled Search
Image
Himanis
Corps

Objectifs et résultats

Avec le financement de l’Initiative de Programmation Conjointe de recherche « Patrimoine culturel et changement global : un nouveau défi pour l’Europe » (JPI Cultural Heritage and Global Change), les partenaires du projet européen HIMANIS sont parvenus à indexer le plein texte de plus de 75 000 pages de manuscrits médiévaux, grâce à une étroite collaboration entre institutions patrimoniales, chercheurs en sciences humaines et sociales, et chercheurs en informatique et en intelligence artificielle. Les nouvelles technologies et l’intelligence artificielle révolutionne l’accès aux documents et inventaires des institutions culturelles, puisque les partenaires d’HIMANIS sont parvenus pour la première fois au monde, d’une part, à convertir et à structurer automatiquement des inventaires manuscrits des Archives Nationales (12 inventaires, soit 1 500 pages) et, d’autre part, à indexer massivement le plein texte des registres médiévaux de la chancellerie royale française, dits « registres du Trésor des Chartes ».

Ces registres sont caractérisés par une forte variabilité tant pour la mise en page (changement du nombre de colonnes, multiples actes et souscriptions sur une même page) que pour la langue (latin, français, occitan…) et l’écriture tracée par des centaines de scribes différents, avec des écritures plus ou moins rapides. Pour ce faire, la machine a été entraînée à lire grâce à des éditions anciennes et des transcriptions, pourtant fautives parfois, couvrant à peine 0,5 % du corpus complet. Elle a ainsi non seulement appris à lire, mais aussi à résoudre les abréviations, pourtant nombreuses, des originaux, et à identifier les scribes.

Outre des publications techniques et scientifiques, le grand public et la communauté des chercheurs peuvent déjà consulter les résultats dans une interface encore provisoire (http://prhlt-kws.prhlt.upv.es/himanis/), où il est possible de chercher par mot-clef dans l’ensemble du corpus. Cet accès nouveau à des sources connues, mais trop vastes pour être exploitées, change radicalement les conditions de la recherche historique.

L’appréciation donnée par les évaluateurs du comité européen compétent est : « excellent ».

Date(s)
2015 - 2018
Partenaire(s)
A2IA
Rijksuniversiteit Groningen
Universitat Politècnica de València
Responsable(s) IRHT