Velum

Titre long
Visualisation, Exploration et Liaison de ressources innovantes pour le latin médiéval
Image
 David désignant sa langue  Alençon, BM, 54, f. 175
Corps

Objectifs

VELUM vise à rendre possible une recherche empirique sur la culture, la langue et l’histoire médiévales, en construisant un environnement de recherche adapté à l’analyse des sources textuelles : au coeur de ce dispositif, un large corpus représentatif de textes médiolatins (entre 500 et 1 500), pourvu d’une riche annotation (parties du discours, lemmes, géographie, chronologie), et assorti d’outils d’analyse statistique et de visualisation des données.
Il s’agit d’appliquer au latin médiéval les techniques de la linguistique de corpus (extraction de texte, modélisation Web sémantique, etc). Outils comme textes seront à la libre disposition de la communauté scientifique.

Étapes

  • Sélection des textes sur la base d’une analyse des répertoires de sources des dictionnaires médiolatins de l’UAI (NGML, MLW, DMLBS, etc.).
  • Reconnaissance optique des caractères (OCR) et nettoyage des erreurs répétitives ; encodage XML-TEI des métadonnées (auteur, titre, date, etc.).
  • Lemmatisation et annotation des parties du discours, sous TreeTagger.
  • Annotation des entités nommées, en correspondance avec des ressources externes.
  • Développement d’outils d’analyse statistique et de visualisation des données lexicales pour permettre l’exploitation du corpus textuel.
Date(s)
2018 - 2022
Partenaire(s)
Krzysztof Nowak (IJP-PAN, Cracovie)
Responsable(s) IRHT