five

TRIDIS (Tria Digita Scribunt)

收藏
arXiv2025-03-25 更新2025-04-03 收录
下载链接:
https://huggingface.co/magistermilitum/Tridis
下载链接
链接失效反馈
官方服务:
资源简介:
TRIDIS是一个开源的中世纪和早期现代手稿综合语料库,由多个开放许可的子集组成,并包含大量元数据描述。该数据集旨在促进手写文本识别和命名实体识别的联合研究,覆盖了12至17世纪的主要西欧手写体和语言。数据集通过统一的模式组织,并以Apache Parquet格式包装,以确保高效的访问和分析。它包括近200,000行文本和超过200万个标记,跨越不同的机构和时期,为文档资料提供了平衡和具有挑战性的基准。

TRIDIS is an open-source comprehensive corpus of medieval and early modern manuscripts, which comprises multiple open-licensed subsets and includes extensive metadata descriptions. This dataset is designed to foster joint research on Handwritten Text Recognition (HTR) and Named Entity Recognition (NER), covering major Western European handwritten scripts and languages spanning the 12th to the 17th centuries. Organized under a unified schema, the dataset is packaged in Apache Parquet format to ensure efficient access and analysis. It contains nearly 200,000 text lines and over 2 million tokens, across diverse institutions and historical periods, serving as a balanced and challenging benchmark for documentary collections.
提供机构:
卢森堡大学Belval校区
创建时间:
2025-03-25
原始信息汇总

数据集概述:Tridis

基本信息

  • 数据集名称:Tridis (Tria Digita Scribunt)
  • 许可证:MIT
  • 任务类别:手写文本识别、图像到文本、图像-文本到文本
  • 适用领域:中世纪及早期现代手稿的半外交转录研究
  • 语言:法语(fr)、西班牙语(es)、拉丁语(la)、德语(de)、荷兰语(nl)

数据集结构

特征

  • image:图像数据
  • text:文本字符串
  • Language:语言标识
  • Corpus:语料来源
  • Script:书写体
  • Century:世纪
  • Image_name:图像名称
  • NER_ann:命名实体标注

数据划分

划分类型 样本数量 数据大小(字节)
train 177,744 30,374,609,181
validation 9,829 1,689,908,739
test 9,827 1,278,986,029

总量统计

  • 下载大小:33,333,506,316字节
  • 数据集大小:33,343,503,949字节

数据内容

  • 覆盖范围:包含4,000页手稿,适用于13世纪及以后的晚期中世纪法律、行政和纪念性手稿研究
  • 手稿类型:登记册、封建书籍、宪章、诉讼记录、会计文件等

来源语料

  1. Alcar-HOME数据库:https://zenodo.org/record/5600884
  2. e-NDP语料库:https://zenodo.org/record/7575693
  3. Himanis项目:https://zenodo.org/record/5535306
  4. Königsfelden修道院语料:https://zenodo.org/record/5179361
  5. VOC及公证文书:https://zenodo.org/records/4159268
  6. Bullinger/Ruolph Gwalther:https://zenodo.org/records/4780947
  7. CODEA语料:https://corpuscodea.es/
  8. Monumenta Luxemburgensia:http://www.tridis.me
搜集汇总
数据集介绍
main_image_url
构建方式
TRIDIS数据集通过整合多个开放许可的中世纪和早期现代手稿子集构建而成,采用半外交转录规则对文本进行标准化处理,包括缩写扩展、字形归一化及现代标点符号的引入。该数据集特别设计了基于联合嵌入空间的离群值检测策略,以创建具有挑战性的测试分割,从而更真实地评估手写文本识别模型的泛化能力。所有数据以Apache Parquet格式统一存储,并附带丰富的元数据描述,涵盖语言、年代、书写体系等关键信息。
特点
TRIDIS数据集以其跨世纪、跨语言的广泛覆盖著称,包含12-17世纪拉丁语、古法语、中古高地德语等多种语言的文献,涉及Textualis、Cursiva等主要书写体系。其独特价值在于:首次系统整合了欧洲多国档案机构的开放手稿资源,采用半外交转录范式平衡文献学准确性与现代NLP需求,并通过离群值驱动的测试集设计,集中呈现罕见缩写、复杂版式等现实挑战。数据集还提供对齐的命名实体标注,支持联合HTR-NER研究。
使用方法
研究者可通过HuggingFace平台获取TRIDIS数据集,利用其预分割的训练、验证和测试集进行模型开发。建议采用多模态方法处理线级图像与文本数据,重点关注离群测试集上的性能表现以评估模型鲁棒性。数据集内置的世纪、语言等元数据支持细粒度分析,如书写体系演变研究。使用时应遵守各子集原始许可协议(CC BY/CC BY-SA),并参考论文提供的TrOCR与MiniCPM-Llama3-V 2.5基线模型进行性能比对。
背景与挑战
背景概述
TRIDIS(Tria Digita Scribunt)是由卢森堡大学的Sergio Torres Aguilar等人于2025年推出的一个开源中世纪及近代早期手稿语料库。该数据集整合了多个开放授权的历史文献子集,涵盖12至17世纪西欧主要语种(拉丁语、古法语、中古高地德语等)及书写体系(Textualis、Cursiva等),包含约20万行文本和200万词例。其核心研究目标是为手写文本识别(HTR)和命名实体识别(NER)任务提供跨世纪、跨语言的基准测试平台,特别关注公证文书等具有复杂版式和书写变体的文献类型。通过标准化半外交转录规则(如缩写扩展、字形归一化)和引入基于离群值检测的数据划分策略,TRIDIS显著提升了历史文献数字化研究的可重复性与模型泛化能力评估效度。
当前挑战
TRIDIS主要面临双重挑战:在领域问题层面,历史手稿存在书写变体复杂(如连字、缩写)、版面结构多样(如边缘注释、多向文本)以及物理损伤(如墨迹褪色)等固有难题,导致HTR模型在跨时代、跨地域文献上的字符错误率(CER)波动达15-25%。在构建过程中,需协调多个子语料库间转录标准差异(如标点现代化程度、专有名词大小写规范),并通过联合嵌入空间离群值检测来构建具有代表性的测试集。此外,早期文献中高频出现的词汇空缺现象(如人名缩写'T.de Sancto Pedro'对应多解)和低资源书写体系(如Praegotica)的样本不足,进一步加剧了模型泛化难度。
常用场景
经典使用场景
TRIDIS数据集作为中世纪和早期现代手稿的综合语料库,其经典使用场景主要集中在手写文本识别(HTR)和命名实体识别(NER)的研究中。该数据集通过整合多个开放授权的子集,覆盖了12至17世纪的多种语言和书写风格,为研究者提供了一个统一的平台,用于开发和评估跨语言、跨时期的HTR模型。其半外交转录规则和丰富的元数据进一步支持了文本的机器可读性和语义分析。
衍生相关工作
TRIDIS数据集衍生了一系列经典研究工作,包括基于Transformer的HTR模型(如TrOCR)和视觉-语言多模态模型(如MiniCPM-Llama3-V 2.5)的优化与评估。这些研究不仅提升了历史文献的自动转录精度,还探索了跨模态表示学习在古籍分析中的应用。此外,该数据集还激发了关于半外交转录规则和离群值检测方法的新研究方向。
数据集最近研究
最新研究方向
TRIDIS数据集作为中世纪及近代手稿研究的重要资源,其最新研究方向聚焦于手写文本识别(HTR)与命名实体识别(NER)的跨领域鲁棒性研究。通过整合多源开放子集并引入基于异常值检测的测试集划分策略,该数据集推动了模型在复杂历史文档中的泛化能力评估。前沿探索包括利用TrOCR和MiniCPM-Llama3-V 2.5等多模态架构,针对罕见书写变体、缩写规范及破损文本等挑战性场景进行优化。当前研究热点还涉及半外交转录规则对现代NLP管道的适配性,以及通过元数据增强实现跨语言、跨时代的笔迹演变分析,为数字人文领域提供了标准化评估基准。
相关研究论文
  • 1
    TRIDIS: A Comprehensive Medieval and Early Modern Corpus for HTR and NER卢森堡大学Belval校区 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作