CLAMM

Classification of Latin Medieval Manuscripts
CLAMM

Le corpus d’images d’écriture a fourni la matière de deux compétitions (« Competition on the Classification of Medieval Handwritings in Latin Script ») tenues dans les colloques internationaux d’analyse d’image par ordinateur ICFHR (International Conference on Frontiers in Handwriting Recognition) en 2016 et ICDAR (International Conference on Document Analysis and Recognition) en 2017. À partir des images annotées, les compétiteurs ont dû développer des logiciels capables de classer des images selon le type d’écriture et procéder à leur datation selon des types ou des intervalles chronologiques définis à l’avance (par exemple au quart de siècle pour le xve siècle).

Les très bonnes performances des ordinateurs rendent leurs résultats exploitables pour enrichir l’analyse paléographique, car les confusions entre écritures ou les calculs de distance montrent les ressemblances et proximités entre écritures et permettent une approche qui se veut « objective ». Cela nourrit aussi la réflexion interdisciplinaire. L’IRHT a pour partenaires de ces développements le Laboratoire d’informatique Paris Descartes (LIPADE, EA 2517) et le Laboratoire d’informatique en image et systèmes d’information (UMR 5205, Écully).

Quelques chiffres

Corpus de 8 000 images d’écriture réalisé à partir de la documentation photographique des Catalogues des manuscrits datés. La validité statistique est assurée par des compléments venus de la BVMM et de Gallica, avec classement des images par type et enrichissement des métadonnées de date dans les notices de manuscrits non datés.

En pratique

  • Publication du corpus : http://clamm.irht.cnrs.fr : 5 000 images annotées pour la compétition de 2016 ; 6 500 images annotées pour la compétition de 2017 ; Matrices produites par les compétiteurs en 2016 et 2017
  • Participants (équipes/individus) : 17 inscrits en 2016, 11 en 2017 ; 5 participants effectifs en 2016, 4 en 2017 ; 7 systèmes d’analyses créés en 2016, 6 en 2017
  • Publication open source de logiciels : trois participants ont publié le code source de leurs logiciels en 2016 et 2017
  • Séminaire de réflexion interdisciplinaire, réunissant dix-huit chercheurs des Humanités et des Sciences de l’ingénieur : Fondation des Treilles, 21-26 nov. 2016
  • 2 rapports de compétition : hal-01403775v1, hal-01628986v1 et 3 articles d’analyse et de prospective épistémologique : Mike KESTEMONT, Vincent CHRISTLEIN, Dominique STUTZMANN, « Artificial paleography: computational approaches to identifying script types in medieval manuscripts », Speculum, 92, 2017 p. 86-109, https://doi.org/10.1086/694112 (hal-01854939v1), hal-01855261v1, hal-01855375v1.