Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux

Organisateurs IRHT
Autres organisateurs
Cuvelier Étienne (ICHEC), De Valeriola Sébastien (ICHEC), Perreaux Nicolas (UNamur), Ruffini-Ronzani Nicolas (UVSQ)
Descriptif

Un atelier-Workshop, Du parchemin à la fouille de données. Nouveaux outils pour la création, la formalisation et l’analyse des corpus médiévaux, est organisé du 28 au 30 octobre à l'IRHT au Campus Condorcet en partenariat avec le Consortium COSME2, le Campus Concorcet, le TGIR Huma-Num, le « QUARESMI », laboratoire de recherche de l’ICHEC Brussels Management School, le « H 37 – Histoire et culture graphiques », groupe de recherche de l’UCLouvain, et « Pratiques médiévales de l’écrit », centre de recherche de l’UNamur.

Le numérique s’est aujourd’hui imposé comme un outil incontournable pour le médiéviste. Depuis plusieurs décennies, un certain nombre d’historiens et de philologues du Moyen Âge appuient en effet leurs travaux sur des éditions numériques et des bases de données, dont la conception a parfois été pensée dès le milieu des années 1960. Pourtant, en dépit des apparences, l’exploitation de ces instruments de recherche et de ces corpus demeure globalement en-deçà de leurs potentialités. Hormis quelques notables exceptions, rares sont les médiévistes à s’être engagés dans une approche quantitative globale et fouillée des ensembles documentaires numérisés. Sans être exclusives des lectures plus traditionnelles, de nouvelles méthodes d’analyse permettent d’interroger ces corpus de manière inédite. L’objectif de cet atelier sera d’offrir une première initiation à des outils informatiques de création, de formalisation et d’analyse des corpus textuels médiévaux. Il s’agira ici d’apprendre le maniement d’un certain nombre d’outils et de méthodes d’analyse que chacun pourra ensuite appliquer à son propre corpus.

Concrètement, l’atelier se propose de former les stagiaires à la création et au traitement complet d’un corpus textuel :  de l’acquisition des données jusqu’à leur analyse statistique, en passant par la formalisation. Différentes problématiques seront abordées, à commencer par celle de la reconnaissance optique des caractères (OCR) et du traitement à appliquer aux données collectées pour les rendre exploitables dans le cadre d’une analyse numérique. Une large place sera également accordée à la question de la formalisation des corpus, à travers l’apprentissage de techniques de nettoyage de texte (« expressions régulières » ou regex), de lemmatisation et d’encodage de métadonnées. Enfin, la troisième partie de la formation sera consacrée à l’analyse historienne proprement dite. Les participants y apprendront à réaliser des enquêtes élémentaires à l’aide de l’outil TXM et à produire des visualisations de données pertinentes et efficaces.

Des exercices pratiques seront proposés tout au long des séances, en vue de garantir une bonne assimilation de la formation.

Ce rendez-vous se clôturera par une journée de « hackathon » ouverte aux stagiaires ainsi qu’à des participants maîtrisant déjà les outils présentés lors de la formation. L’ambition de cette dernière journée sera double : il s’agira, d’une part, de mettre en application les notions apprises lors des étapes précédentes et, d’autre part, de construire ensemble un nouveau corpus textuel. Ce dernier sera ensuite mis librement à disposition de la communauté des médiévistes. En travaillant au sein de groupes restreints, les stagiaires seront amenés à nettoyer et à assurer le traitement d’un corpus déjà OCRisé, mais ne se présentant à l’heure actuelle que sous la forme d’un texte brut : celui des Cartulaires de Notre-Dame de Paris publiés par Benjamin Guérard au milieu du XIXe siècle.

  • Inscription avant le vendredi 27 septembre 2019 à l’adresse suivante : ateliernouveauxoutils@gmail.com.
  • Nous vous serions reconnaissants de préciser si vous vous inscrivez à l’ensemble de la formation ou à la seule journée de hackathon.
  • Quelques jours avant le début de la formation, les stagiaires recevront une liste d’outils qu’ils seront invités à télécharger et à installer sur leur ordinateur portable.
  • La formation est gratuite et ouverte à tous (étudiants de Master, doctorants, postdoctorants, enseignants-chercheurs …).

Programme

Lundi 28 octobre 2019

I. Acquisition et nettoyage des données

  • Du papier au numérique
  • OCRisation – Partie 1 : acquisition et pré-traitement
  • OCRisation – Partie 2 : post-traitement

II. Traitement, formalisation et création d’un corpus (début)

  • Nettoyer un texte : les regex ou « expressions régulières »
  • Lemmatisation (aspects théoriques)

Mardi 29 octobre 2019

II. Traitement, formalisation et création d’un corpus (fin)

  • Outils disponibles et formats d’entrée
  • Intégrer des métadonnées

III. L'analyse historienne

  • Enquêtes élémentaires
  • Visualiser les données

Mercredi 30 octobre 2019

IV. Hackathon – Ouvert à tous

INFORMATIONS PRATIQUES

Type d'événement: Atelier
Conditions d'accès
Inscription