Le projet vise à la constitution de vérités de terrain pour l'entraînement de modèles HTR à partir d'un manuscrit français des années 1430-1455 : le manuscrit 5070 de la Bibliothèque de l'Arsenal (reproduit sur Gallica). Ce manuscrit contient la traduction française du Decameron de Boccace par Laurent de Premierfait. Nos vérités de terrain recouvrent la description de la peste à Florence située dans le prologue de l'ouvrage.
Le passage concerné occupe les folios 2v (lettrine M) à 6v (premier pied de mouche), soit 16 colonnes, à savoir:
css/
contient la feuille de style decaracteres.html
csv/
contient la table des caractèresdocumentsDeTravail/
contient les transcriptions utilisées pour réaliser lesveriteTerrain/
du projetimg/
contient des images pour l'illustration decaracteres.html
et denormesTranscription.md
modeles/
: contient les modèles d'entraînement HTR utilisés:cremma_medieval_bicerin.mlmodel
: le modèle Cremma Mediéval 1.0.0 BicerinfineTunEneide2mains_best.mlmodel
: le modèle fineTunEneide
py/
contientcaracteres.py
: le script python de génération decaracteres.html
à partir decsv/caracteres.csv
iiifSelection.py
: le script python de génération dans un terminal de l'URL d'une zone d'intérêt dans une image IIIF
rapport/
contient le rapport du projet au format.pdf
, ainsi qu'un sous-dossier contenant les fichiers-sources.tex
et.bib
.tutos/
contient des outils de contribution au projet :tuto-iiif.md
: pour générer l'URL d'une zone d'intérêt dans une image IIIFtutoJunicode.md
: pour installer la police de caractères Junicodetuto-segmentation.mp4
: pour segmenter un folio dans eScriptoriumtuto-trasncription.tar.xz
: pour transcrire un folio dans e-Scriptorium
veriteTerrain/
contient les vérités terrain du projet : fichiers.xml
et images.jpg
CITATION.cff
: informations de citationcaracteres.html
: table des caractères d'après le manuscrit du projet ; elle propose une liste des formes de lettres et les solutions d'encodage des cas complexes, notamment les abréviationsclavier-virtuel-decameron.json
: clavier virtuel à importer dans e-Scriptorium avant de commencer la transcription ; donne accès à la plupart des caractères spéciaux utilisésnormesTranscription.md
: description détaillée des normes de transcription employée dans le projet
Ce projet a été réalisé par :
- Sébastien Biay
- Victor Boby
- Zoé Cappe
- Kristina Konstantinova
dans le cadre du master TNAH "Technologies Numériques Appliquées à l'Histoire" de l'Ecole Nationale des Chartes