Jeu de données de segmentation non normalisée- castillan médiéval
收藏NIAID Data Ecosystem2026-03-14 收录
下载链接:
https://zenodo.org/record/7684879
下载链接
链接失效反馈官方服务:
资源简介:
Jeu de données de segmentation/tokénisation sur un corpus non régularisé en sortie d'HTR/OCR. Castillan médiéval (15e siècle); manuscrit (deux témoins,55%) et incunable (un témoin, 45%). Les normes de segmentation sont celles du castillan actuel.
Le jeu de données fait environ 37.000 lignes pour l'instant. Il est produit à partir de mon corpus de thèse.
Le corpus provient de deux manuscrits et d'un incunable qui contiennent le Regimiento de los prínçipes.
Val_S: Ms. 251, Universidad de Valladolid. Fols 1r-27r et 175r-197v.
Sev_Z: Inc/901, Bibliothèque Nationale d'Espagne. Fols 1r-114r et 153r-249v.
Mad_A: Inv. 15304, Bibliothèque de la Fundación Lázaro Galdiano, fols. 237v-274v.
Sal_L: Ms 2709, Bibliothèque Universitaire de Salamanque, fols. 365r-391r.
Le corpus peut difficilement servir pour l'étude du texte. Les changements de folio ne sont pas toujours indiqués; certaines lignes trop mal transcrites ont été supprimées.
Citer le corpus
Merci de citer ma thèse de doctorat si vous utilisez ce corpus:
Matthias Gille Levenson, La version B du Regimiento de los prínçipes glosé (1374-1494) : étude et éditions de la partie sur le gouvernement de la cité par temps de guerre (III,3), thèse de doctorat en préparation sous la direction de Carlos Heusch et de Jesús R. Velasco
创建时间:
2023-03-01



