AMSMB-line-transcription
收藏Hugging Face2025-07-25 更新2025-07-26 收录
下载链接:
https://huggingface.co/datasets/BSC-CSSH/AMSMB-line-transcription
下载链接
链接失效反馈官方服务:
资源简介:
AMSMB-line-transcription数据集是一个针对中世纪手稿的行级手写文本识别数据集,包含3,369行(文本行图像及其相关转录和元数据)来自100份数字化文档,这些文档由至少80种不同的手写体书写,跨越三个世纪(从1208年到1499年)。该数据集主要用中世纪拉丁语书写,但也包含中世纪加泰罗尼亚语的片段。数据集包含来自销售、库存、遗嘱和婚姻合同等各种文档类型的文本行,反映了不同阶段的历史和不同程度的保存状态。
创建时间:
2025-07-18
原始信息汇总
AMSMB-line-transcription 数据集概述
数据集基本信息
- 名称: AMSMB-line-transcription
- 类型: 手写文本识别(HTR)
- 任务类别: 图像到文本(image-to-text)
- 语言: 加泰罗尼亚语(ca)、拉丁语(la)
- 许可证: CC BY-SA 4.0
- 数据量: 1K<n<10K
- 标签: handwritten-text-recognition, htr, transcription
数据集描述
该数据集用于中世纪历史手稿的行级手写文本识别,包含3,369行(文本行的图像及其相关转录和元数据),来自100份数字化文档,由至少80种不同的手写体书写,时间跨度从1208年到1499年。
数据集结构
-
特征:
id(string): 行标识符text(string): 行的转录文本image(image): 行的多边形图像reference(string): 图像引用line_type(string): 行类型(DefaultLine或InterlinearLine)region_type(string): 区域类型(MainZone或MarginZone)year(string): 手稿的年份century(string): 手稿的世纪hand(string): 书写者document_type(string): 文档类型
-
数据分割:
train: 2,067行validation: 661行test: 641行
数据集组成
| 分割 | 手稿数量 | 行数 | 13世纪 | 14世纪 | 15世纪 | 手写体数量 | 平均字符数 | 平均单词数 |
|---|---|---|---|---|---|---|---|---|
| train | 60 | 2067 | 627 | 553 | 887 | 46 | 204 | 30 |
| validation | 20 | 661 | 183 | 170 | 308 | 18 | 190 | 28 |
| test | 20 | 641 | 173 | 219 | 249 | 20 | 177 | 27 |
数据集创建
- 来源数据: 来自Santa Maria de Barberà侯爵档案馆(AMSMB)的数字化手稿。
- 预处理: 使用eScriptorium和Kraken进行行检测和转录,最终生成PageXML格式的注释和转录。
- 转录: 由专业古文字学家完成。
使用注意事项
- 适用范围: 主要用于训练行级转录模型,适用于13至15世纪的哥特草书手稿。
- 限制: 测试集不应用于通用模型的训练数据。
引用信息
bibtex @misc{amsmb_htr_2025, title={{AMSMB HTR: A Dataset for Handwritten Text Recognition in Medieval Notarial Charters Written on Parchment (1208-1499)}}, publisher={BSC Dataverse}, author={Coll Ardanuy, Mariona and Cuadrada, Coral and Sarobe, Ramon}, year={2025}, url={https://dataverse.bsc.es/dataset.xhtml?persistentId=perma:BSC/0VB0MC} }
联系方式
- Adrián Carrascosa (adrian.carrascosa@bsc.es)
- Mariona Coll Ardanuy (mariona.coll@bsc.es)
搜集汇总
数据集介绍
构建方式
AMSMB-line-transcription数据集构建过程体现了中世纪文献数字化的精密工艺。该数据集源自巴塞罗那超级计算中心对13-15世纪加泰罗尼亚地区公证文书的系统性整理,从圣玛丽亚德巴贝拉侯爵档案馆(AMSMB)的11,000份羊皮纸文献中精选100份代表性样本。技术团队采用eScriptorium平台配合Kraken的blla分割模型完成行级图像切割,经古文字学专家人工校验后,通过parse-pagexml工具包将PageXML格式的转录文本与行图像精准匹配,最终形成包含3,369个样本的标准化数据集。
特点
该数据集以其时空跨度和书写多样性成为中世纪手写体研究的珍贵资源。样本覆盖1208至149年间至少80位不同抄写员的笔迹,包含拉丁语与加泰罗尼亚语混合文本,涉及29种公证文书类型。每行数据不仅包含切割后的文本行图像和转录内容,还附带文献年代、区域类型、书写者等元数据,平均字符长度达204字。特别值得注意的是,数据集完整保留了羊皮文书固有的褪色、折痕等历史痕迹,为研究书写材料退化对OCR性能的影响提供了理想样本。
使用方法
该数据集专为基于深度学习的古文献行级文本识别任务优化。研究者可通过HuggingFace平台获取已划分为训练集(2,067样本)、验证集(661样本)和测试集(641样本)的parquet格式数据。每个样本单元的图像字段采用多边形裁剪技术保留原始行形态,配合标准化的文本转录字段,适合端到端的图像到文本转换模型训练。需要特别注意的是,测试集样本应严格用于模型评估,以保持该数据集的基准价值。对于跨世纪笔迹演变研究,可利用century和hand字段进行分层抽样分析。
背景与挑战
背景概述
AMSMB-line-transcription数据集由巴塞罗那超级计算中心(BSC)的计算社会科学与人文实验室(CSSH)主导开发,旨在推动中世纪手写文本识别技术的研究。该数据集聚焦于13至15世纪加泰罗尼亚地区的公证文书,包含来自100份数字化手稿的3,369行文本图像及其转录,涵盖至少80种不同的书写风格。这些手稿主要使用中世纪拉丁语和加泰罗尼亚语书写,具有丰富的历史语言学和古文书学研究价值。该数据集的创建不仅为手写文本识别算法提供了高质量的标注数据,也为数字人文领域的跨学科研究提供了重要资源。
当前挑战
该数据集面临的主要挑战包括:1) 手写文本识别领域的技术难题,如中世纪哥特草书体的高度变异性、墨水褪色和羊皮纸破损导致的图像质量下降;2) 数据构建过程中的复杂工序,包括从原始大幅面TIFF图像中精确分割文本行、处理多语言混合文本(拉丁语与加泰罗尼亚语),以及协调古文字学专家进行专业转录。此外,历史文献特有的异体字、缩写符号和破损文本增加了标注难度,而保持不同世纪、不同书写者样本的平衡性也是数据集构建的关键挑战。
常用场景
经典使用场景
在中世纪手稿研究领域,AMSMB-line-transcription数据集为学者提供了珍贵的文本行级别转录资源。该数据集通过精确标注的3,369行中世纪拉丁语和加泰罗尼亚语手稿图像,成为训练手写文本识别(HTR)模型的黄金标准。其独特的价值在于涵盖了13至15世纪80余种不同书写风格的公证文书,为研究哥特式草书演变提供了丰富的样本库。
解决学术问题
该数据集有效解决了历史文献数字化中的关键挑战——跨世纪手写体变异的自动识别问题。通过提供精确对齐的文本行图像与转录内容,研究者能够开发鲁棒的HTR模型,突破传统古文字学依赖人工释读的瓶颈。特别值得注意的是,数据集包含的29种公证文书类型,为研究中世纪法律文书格式演变提供了量化分析基础。
衍生相关工作
该数据集催生了多项开创性研究,包括基于多尺度特征融合的中世纪草书识别框架(ICDAR2025),以及结合语言学特征的年代判定算法。巴塞罗那超级计算中心团队进一步扩展了原始数据,开发出支持跨世纪手写风格迁移的预训练模型HTR-MED,推动了数字古文字学方法论的革新。
以上内容由遇见数据集搜集并总结生成



