dh-unibe/image-text_medieval-scripts_xiv-xv-xvi
收藏Hugging Face2026-04-26 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/dh-unibe/image-text_medieval-scripts_xiv-xv-xvi
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含548322个样本,涵盖1个数据分割。地理范围:比利时;时期:1350-1550年;语言:弗拉芒语;文档类型:协议;来源:鲁汶国家档案馆。
This dataset contains 548322 samples across 1 split(s). Geographical scope: Belgium; Period: 1350-1550; Languages: Flemish; Type of document: Protocol; Provenance: State Archives in Leuven.
提供机构:
dh-unibe
搜集汇总
数据集介绍

构建方式
在历史文献数字化领域,该数据集的构建依托于Transkribus平台生成的PageXML数据,通过专门的pagexml-hf转换工具进行系统化处理。构建过程聚焦于比利时地区1350年至1550年间的弗拉芒语协议文献,涵盖了鲁汶国家档案馆收藏的丰富手稿资源。数据以图像与XML文本配对的形式组织,确保了原始文献的视觉信息与结构化文本内容的精确对应,为手写文本识别研究提供了高质量的标注基础。
特点
该数据集的核心特点在于其时空与语料的专一性,集中收录了中世纪晚期至近代早期弗拉芒语地区的协议文书,反映了该时期法律与行政文献的书写特征。数据规模庞大,包含超过54万条样本,每一条样本均包含手稿图像及其对应的PageXML格式转录内容,支持图像到文本的直接映射。数据集结构清晰,按项目名称进行分片存储,便于研究者根据具体文献来源进行定向分析与模型训练,尤其适用于手写文本识别与历史文献转录任务。
使用方法
使用该数据集时,研究者可通过Hugging Face的datasets库直接加载,支持整体数据集或特定训练分割的灵活调用。加载后的数据以标准特征形式呈现,包括图像、XML内容、文件名及项目名称,便于后续的预处理与模型输入构建。该数据集适用于训练与评估手写文本识别模型,如TrOCR等架构,也可用于历史语言学、文献数字化等跨学科研究,为探索中世纪书写传统提供机器可读的高质量资源。
背景与挑战
背景概述
在数字人文与历史信息学领域,手稿文献的数字化与自动转录是连接中世纪研究与现代计算技术的关键桥梁。image-text_medieval-scripts_xiv-xv-xvi数据集由相关学术机构基于Transkribus平台构建,聚焦于1350年至1550年间比利时地区的弗拉芒语协议文献,旨在为手写文本识别研究提供大规模、高质量的图像与文本对齐资源。该数据集涵盖了鲁汶国家档案馆的丰富馆藏,通过PageXML格式整合了图像及其结构化转录内容,为探索中世纪晚期至近代早期的手写体演变、语言变迁及社会文书实践提供了宝贵的实证基础,有力推动了历史文档分析与文化遗产数字化的发展。
当前挑战
该数据集致力于解决中世纪手写文本自动转录这一核心领域问题,其挑战在于手写体的高度变异性、墨迹褪色或文档破损导致的图像质量不均,以及古弗拉芒语拼写与语法结构的复杂性,这些因素共同制约了转录模型的准确性与泛化能力。在构建过程中,挑战主要源于历史文档的数字化标准统一、PageXML标注的规模与一致性维护,以及跨项目数据的整合与质量控制,需在保护原始文献完整性的同时,确保机器可读格式的精确生成。
常用场景
经典使用场景
在数字人文与历史文献学领域,该数据集为手写文本识别研究提供了珍贵的训练资源。其核心应用场景在于训练和评估端到端的手写文本识别模型,例如基于Transformer的TrOCR架构,以自动化转录中世纪佛兰德语协议文献。通过结合图像与对应的PageXML标注,模型能够学习从复杂历史笔迹中提取文本信息,显著提升转录效率与准确性。
解决学术问题
该数据集有效应对了历史文献数字化中的关键挑战,即如何高效处理大量非标准手写体文本。它为解决手写文本识别中的字体变异、墨水褪色及页面退化等问题提供了标准化基准,推动了光学字符识别技术在古文书学中的应用。其意义在于降低了历史学家与档案员的人工转录负担,为大规模文本分析与数字人文研究奠定了数据基础。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典研究工作,主要集中在改进手写文本识别模型的鲁棒性与泛化能力。例如,基于TrOCR的变体模型被开发用于处理中世纪脚本的独特字形特征;同时,结合多模态学习的框架也被提出,以整合视觉与文本信息进行更精确的转录。这些工作推动了数字人文领域的技术创新,并为类似历史文献数据集的处理树立了范式。
以上内容由遇见数据集搜集并总结生成



