HORAE

Titre long
Hours - Recognition, Analysis, Editions – Heures : Reconnaissance de l’écriture manuscrite, catégorisation automatique, éditions
Image
Heures à l'usage de Poitiers, La fuite d'Egypte. Poitiers, BM, 1097, f. 32v
Corps

Objectifs

HORAE étudie les pratiques religieuses de la fin du Moyen Âge à travers les livres d’heures, qui en sont le best-seller – plus de 5 000 témoins conservés. Il combine l’intelligence artificielle appliquée à l’analyse d’image par ordinateur, le traitement automatique des langues (TALN), l’histoire du livre et des pratiques religieuses. Les objectifs comprennent :

  1. l’utilisation des manuscrits numérisés présents en ligne et sous-utilisés ;
  2. des nouveaux logiciels open source de reconnaissance d’écriture manuscrite (HTR, Handwritten Text Recognition) ;
  3. des outils de segmentation et de repérage de plagiat adaptés aux manuscrits médiévaux, afin d’identifier les textes transmis par les livres d’heures ;
  4. le repérage et l’édition des textes inédits ;
  5. la visualisation des ‘clusters’ de manuscrits présentant les mêmes caractéristiques textuelles, avec l’ordre des différentes parties (petit office de la Vierge, offices votifs, suffrages, prières), mais aussi celui des unités textuelles qui permet de repérer les usages liturgiques ;
  6. l’étude de la diffusion et de la circulation des textes dévotionnels et liturgiques transmis par les livres d’heures pour mieux comprendre la culture et la foi des xiiie-xvie siècles.

HORAE PICTAVENSES a pour objet les livres d’heures de la Médiathèque de Poitiers, numérisés en 2013, bien étudiés pour leurs enluminures mais dont les origines, les provenances et les sages liturgiques sont mal connus. Le projet associe le traitement automatique d’analyse d’image (reconnaissance de texte manuscrit et alignement texte-image) et une étude des contenus, afin de constituer une bibliothèque virtuelle à l’échelle d’une province. L’accent est mis sur l’enrichissement des métadonnées et la mise en place de structures pour les diffuser selon des formats et des protocoles interopérables (IIIF, XML-TEI, JP2).

Calendrier et résultats

  • HORAE PICTAVENSES – 02/2018 : numérisation des compléments de corpus ; 03/2018 : mise en ligne d’une infrastructure IIIF par l’Espace Mendès France, classification automatique des types d’images ; 06/2018 : conversion des notices par la Médiathèque de Poitiers ; description des manuscrits ; à venir : création des manifests IIIF intégrant les métadonnées descriptives, « lecture automatisée » des textes des livres d’heures, valorisation.
  • HORAE – 01/2019 base de données des livres d’heures dans le monde ; 09/2019 : texte reconnu automatiquement à partir des numérisations de 400 manuscrits ; 03/2020 : table des contenus de l’ensemble des livres d’heures analysés ;12/2020 : deux publications monographiques : (1) circulation des textes et réception des livres d’heures ; (2) édition d’une anthologie de textes inédits.
Date(s)
2018 - 2020
Membre(s)
Marlène Helias-Baron
Jacob Currie (CDD HORA)
Partenaire(s)
Teklia
LS2N (Laboratoire des Sciences du Numérique de Nantes, UMR 6004)
Médiathèque François Mitterrand
Espace Mendès France (Poitiers)
Responsable(s) IRHT