five

Jeu de données de segmentation et de reconnaissance optique de caractères - Kraken - Incunables sévillans 1494-1500

收藏
NIAID Data Ecosystem2026-05-01 收录
下载链接:
https://zenodo.org/record/3643393
下载链接
链接失效反馈
官方服务:
资源简介:
Ce dépôt contient un modèle fonctionnel de reconnaissance optique de caractères, entraîné grâce au logiciel kraken via eScriptorium. Le modèle a été entraîné sur un des incunables du Regimiento de los Prínçipes (connu aussi sous le titre de: Glosa castellana al Regimiento de prínçipes), l'incunable INC/901 de la Bibliothèque nationale d'Espagne.   Il contient de même un modèle de segmentation entraîné de même sur kraken après segmentation manuelle sur eScriptorium.   Description du jeu de données: Le jeu de données contient 60 pages et 6831 lignes. Le type utilisé par Estanislao Polono pour cet incunable est le 97G (Martín Abad and Moyano Andrés, 2002, p. 61). Ce type est utilisé entre 1494 et 1500. Pour les autres incunables produits à cette époque, voir op.cit, p.112-121. Les zones du modèle de segmentation sont conformes au vocabulaire partagé SegmOnto (https://segmonto.github.io/).   Qualité du modèle: Le modèle a été entraîné sur 5386 lignes. Son taux d'erreur est d'un peu plus de 3% (96.5%). Les vérités terrain sont fournies au format ALTO et jpeg. Deux modèles de segmentation sont fournis, pour les baselines et pour les régions.   Crédits et remerciements: Les données ont successivement été entraînées sur Ocropy et Kraken.  Pour entraîner originellement le modèle Ocropy qui a permis de prédire le jeu de données d'entraînement que j'ai ensuite corrigé et utilisé sur Kraken, je me suis amplement servi du manuel rédigé par Jean-Baptiste Camps (ENC-PSL), qui peut être trouvé sur son carnet de recherche. Merci à Simon Gabay (U. de Neuchâtel) pour son aide sur kraken et pour tous ses conseils méthodologiques. Bibliographie: Kiessling, Benjamin. « Kraken - an Universal Text Recognizer for the Humanities ». DH2019:Complexity, Utrecht, 2019. https://dev.clariah.nl/files/dh2019/boa/0673.html. Martín Abad, J. and Moyano Andrés, I. (2002). Estanislao Polono. « Homemade manuscript OCR (1): OCRopy », Sacré Gr@@l, 6 février 2017, https://graal.hypotheses.org/786
创建时间:
2023-05-22
二维码
社区交流群
二维码
科研交流群
商业服务