Velum

Visualisation, Exploration et Liaison de ressources innovantes pour le latin médiéval

David désignant sa langue Alençon, BM, 54, f. 175

Objectifs

VELUM vise à rendre possible une recherche empirique sur la culture, la langue et l’histoire médiévales, en construisant un environnement de recherche adapté à l’analyse des sources textuelles : au coeur de ce dispositif, un large corpus représentatif de textes médiolatins (entre 500 et 1 500), pourvu d’une riche annotation (parties du discours, lemmes, géographie, chronologie), et assorti d’outils d’analyse statistique et de visualisation des données.
Il s’agit d’appliquer au latin médiéval les techniques de la linguistique de corpus (extraction de texte, modélisation Web sémantique, etc). Outils comme textes seront à la libre disposition de la communauté scientifique.

Étapes

Sélection des textes sur la base d’une analyse des répertoires de sources des dictionnaires médiolatins de l’UAI (NGML, MLW, DMLBS, etc.).
Reconnaissance optique des caractères (OCR) et nettoyage des erreurs répétitives ; encodage XML-TEI des métadonnées (auteur, titre, date, etc.).
Lemmatisation et annotation des parties du discours, sous TreeTagger.
Annotation des entités nommées, en correspondance avec des ressources externes.
Développement d’outils d’analyse statistique et de visualisation des données lexicales pour permettre l’exploitation du corpus textuel.

Date(s)

2018 - 2022

Equipe

Lexicographie et sémantique

Partenaire(s)

Krzysztof Nowak (IJP-PAN, Cracovie)

Lien

Velum

Responsable(s) IRHT

Bruno Bon