TRIDIS (Tria Digita Scribunt)

Name: TRIDIS (Tria Digita Scribunt)
Creator: 卢森堡大学Belval校区
Published: 2025-03-25 11:44:11
License: 暂无描述

arXiv2025-03-25 更新2025-04-03 收录

下载链接：

https://huggingface.co/magistermilitum/Tridis

下载链接

链接失效反馈

官方服务：

资源简介：

TRIDIS是一个开源的中世纪和早期现代手稿综合语料库，由多个开放许可的子集组成，并包含大量元数据描述。该数据集旨在促进手写文本识别和命名实体识别的联合研究，覆盖了12至17世纪的主要西欧手写体和语言。数据集通过统一的模式组织，并以Apache Parquet格式包装，以确保高效的访问和分析。它包括近200,000行文本和超过200万个标记，跨越不同的机构和时期，为文档资料提供了平衡和具有挑战性的基准。

TRIDIS is an open-source comprehensive corpus of medieval and early modern manuscripts, which comprises multiple open-licensed subsets and includes extensive metadata descriptions. This dataset is designed to foster joint research on Handwritten Text Recognition (HTR) and Named Entity Recognition (NER), covering major Western European handwritten scripts and languages spanning the 12th to the 17th centuries. Organized under a unified schema, the dataset is packaged in Apache Parquet format to ensure efficient access and analysis. It contains nearly 200,000 text lines and over 2 million tokens, across diverse institutions and historical periods, serving as a balanced and challenging benchmark for documentary collections.

提供机构：

卢森堡大学Belval校区

创建时间：

2025-03-25

原始信息汇总

数据集概述：Tridis

基本信息

数据集名称：Tridis (Tria Digita Scribunt)
许可证：MIT
任务类别：手写文本识别、图像到文本、图像-文本到文本
适用领域：中世纪及早期现代手稿的半外交转录研究
语言：法语(fr)、西班牙语(es)、拉丁语(la)、德语(de)、荷兰语(nl)

数据集结构

特征

image：图像数据
text：文本字符串
Language：语言标识
Corpus：语料来源
Script：书写体
Century：世纪
Image_name：图像名称
NER_ann：命名实体标注

数据划分

划分类型	样本数量	数据大小（字节）
train	177,744	30,374,609,181
validation	9,829	1,689,908,739
test	9,827	1,278,986,029

总量统计

下载大小：33,333,506,316字节
数据集大小：33,343,503,949字节

数据内容

覆盖范围：包含4,000页手稿，适用于13世纪及以后的晚期中世纪法律、行政和纪念性手稿研究
手稿类型：登记册、封建书籍、宪章、诉讼记录、会计文件等

来源语料

Alcar-HOME数据库：https://zenodo.org/record/5600884
e-NDP语料库：https://zenodo.org/record/7575693
Himanis项目：https://zenodo.org/record/5535306
Königsfelden修道院语料：https://zenodo.org/record/5179361
VOC及公证文书：https://zenodo.org/records/4159268
Bullinger/Ruolph Gwalther：https://zenodo.org/records/4780947
CODEA语料：https://corpuscodea.es/
Monumenta Luxemburgensia：http://www.tridis.me

搜集汇总

数据集介绍

构建方式

TRIDIS数据集通过整合多个开放许可的中世纪和早期现代手稿子集构建而成，采用半外交转录规则对文本进行标准化处理，包括缩写扩展、字形归一化及现代标点符号的引入。该数据集特别设计了基于联合嵌入空间的离群值检测策略，以创建具有挑战性的测试分割，从而更真实地评估手写文本识别模型的泛化能力。所有数据以Apache Parquet格式统一存储，并附带丰富的元数据描述，涵盖语言、年代、书写体系等关键信息。

特点

TRIDIS数据集以其跨世纪、跨语言的广泛覆盖著称，包含12-17世纪拉丁语、古法语、中古高地德语等多种语言的文献，涉及Textualis、Cursiva等主要书写体系。其独特价值在于：首次系统整合了欧洲多国档案机构的开放手稿资源，采用半外交转录范式平衡文献学准确性与现代NLP需求，并通过离群值驱动的测试集设计，集中呈现罕见缩写、复杂版式等现实挑战。数据集还提供对齐的命名实体标注，支持联合HTR-NER研究。

使用方法

研究者可通过HuggingFace平台获取TRIDIS数据集，利用其预分割的训练、验证和测试集进行模型开发。建议采用多模态方法处理线级图像与文本数据，重点关注离群测试集上的性能表现以评估模型鲁棒性。数据集内置的世纪、语言等元数据支持细粒度分析，如书写体系演变研究。使用时应遵守各子集原始许可协议（CC BY/CC BY-SA），并参考论文提供的TrOCR与MiniCPM-Llama3-V 2.5基线模型进行性能比对。

背景与挑战

背景概述

TRIDIS（Tria Digita Scribunt）是由卢森堡大学的Sergio Torres Aguilar等人于2025年推出的一个开源中世纪及近代早期手稿语料库。该数据集整合了多个开放授权的历史文献子集，涵盖12至17世纪西欧主要语种（拉丁语、古法语、中古高地德语等）及书写体系（Textualis、Cursiva等），包含约20万行文本和200万词例。其核心研究目标是为手写文本识别（HTR）和命名实体识别（NER）任务提供跨世纪、跨语言的基准测试平台，特别关注公证文书等具有复杂版式和书写变体的文献类型。通过标准化半外交转录规则（如缩写扩展、字形归一化）和引入基于离群值检测的数据划分策略，TRIDIS显著提升了历史文献数字化研究的可重复性与模型泛化能力评估效度。

当前挑战

TRIDIS主要面临双重挑战：在领域问题层面，历史手稿存在书写变体复杂（如连字、缩写）、版面结构多样（如边缘注释、多向文本）以及物理损伤（如墨迹褪色）等固有难题，导致HTR模型在跨时代、跨地域文献上的字符错误率（CER）波动达15-25%。在构建过程中，需协调多个子语料库间转录标准差异（如标点现代化程度、专有名词大小写规范），并通过联合嵌入空间离群值检测来构建具有代表性的测试集。此外，早期文献中高频出现的词汇空缺现象（如人名缩写'T.de Sancto Pedro'对应多解）和低资源书写体系（如Praegotica）的样本不足，进一步加剧了模型泛化难度。

常用场景

经典使用场景

TRIDIS数据集作为中世纪和早期现代手稿的综合语料库，其经典使用场景主要集中在手写文本识别（HTR）和命名实体识别（NER）的研究中。该数据集通过整合多个开放授权的子集，覆盖了12至17世纪的多种语言和书写风格，为研究者提供了一个统一的平台，用于开发和评估跨语言、跨时期的HTR模型。其半外交转录规则和丰富的元数据进一步支持了文本的机器可读性和语义分析。

衍生相关工作

TRIDIS数据集衍生了一系列经典研究工作，包括基于Transformer的HTR模型（如TrOCR）和视觉-语言多模态模型（如MiniCPM-Llama3-V 2.5）的优化与评估。这些研究不仅提升了历史文献的自动转录精度，还探索了跨模态表示学习在古籍分析中的应用。此外，该数据集还激发了关于半外交转录规则和离群值检测方法的新研究方向。

数据集最近研究