CATMuS/medieval

Name: CATMuS/medieval
Creator: CATMuS
Published: 2025-03-11 19:45:23
License: 暂无描述

Hugging Face2025-03-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CATMuS/medieval

下载链接

链接失效反馈

官方服务：

资源简介：

CATMuS Medieval数据集是一个用于手写文本识别（HTR）的多语言大规模跨世纪数据集，特别针对中世纪拉丁文手稿的转录。它提供了一个统一的注释框架和丰富的元数据，用于评估自动文本识别模型。数据集包含超过200份手稿和印刷品，涵盖10种不同语言，超过16万行文本和500万字符，时间跨度从8世纪到16世纪。数据集由多个机构和项目合作开发，旨在解决中世纪手稿转录标准多样性的问题。

提供机构：

CATMuS

原始信息汇总

数据集概述

数据集名称: CATMuS Medieval

许可证: CC-BY-4.0

任务类别:

图像到文本

语言:

法语
英语
荷兰语
意大利语
西班牙语
加泰罗尼亚语

数据集大小: 100K<n<1M

标签:

光学字符识别
人文学科
手写文本识别

数据集详情

开发目的:

提供一个统一的注释框架，用于中世纪手稿的注释实践。
为自动文本识别模型提供多维度的基准测试环境，包括生产世纪、语言、类型、脚本等丰富的元数据。
支持其他任务的基准测试，如脚本分类或日期分类。
探索与计算机视觉和数字古文字学相关的基于行的任务，如生成方法。

数据集构成:

超过200份手稿和古抄本
涵盖10种不同语言
包含超过160,000行文本和500万字符
时间跨度从8世纪到16世纪

数据集特点:

旨在解决中世纪手稿转录标准多样性带来的挑战，提供一个全面的基准，用于评估历史来源的HTR模型。

数据集使用

直接用途:

手写文本识别
日期分类
脚本分类

超出范围的用途:

文本到图像

数据集结构

数据通过load_dataset("CATMuS/medieval")加载
数据可以根据每个手稿在训练、验证和测试集之间进行90/5/5的分割
图像位于im列，文本位于text列

数据集来源和注释

数据集创建者: Thibault Clérice

资金支持: BnF Datalab, Biblissima +, DIM PAMIR

注释者:

Ariane Pinche
Thibault Clérice
Alix Chagué
Jean-Baptiste Camps
Malamatenia Vlachou-Efstathiou
Matthias Gille Levenson
Olivier Brisville-Fertin
Franz Fischer
Michael Gervers
Agnès Boutreux
Avery Manton
Simon Gabay
Patricia OConnor
Wouter Haverals
Mike Kestemont
Caroline Vandyck
Benjamin Kiessling

数据集偏差、风险和限制

数据偏向于古法语、中荷兰语和西班牙语，特别是14世纪。
只有拉丁语在所有世纪都有代表性，其他接近拉丁语覆盖范围的语言是古法语。
只有一个文档是古英语。

引用信息

BibTeX: tex @unpublished{clerice:hal-04453952, TITLE = {{CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond}}, AUTHOR = {Cl{e}rice, Thibault and Pinche, Ariane and Vlachou-Efstathiou, Malamatenia and Chagu{e}, Alix and Camps, Jean-Baptiste and Gille-Levenson, Matthias and Brisville-Fertin, Olivier and Fischer, Franz and Gervers, Michaels and Boutreux, Agn{`e}s and Manton, Avery and Gabay, Simon and OConnor, Patricia and Haverals, Wouter and Kestemont, Mike and Vandyck, Caroline and Kiessling, Benjamin}, URL = {https://inria.hal.science/hal-04453952}, NOTE = {working paper or preprint}, YEAR = {2024}, MONTH = Feb, KEYWORDS = {Historical sources ; medieval manuscripts ; Latin scripts ; benchmarking dataset ; multilingual ; handwritten text recognition}, PDF = {https://inria.hal.science/hal-04453952/file/ICDAR24___CATMUS_Medieval-1.pdf}, HAL_ID = {hal-04453952}, HAL_VERSION = {v1}, }

APA:

Thibault Clérice, Ariane Pinche, Malamatenia Vlachou-Efstathiou, Alix Chagué, Jean-Baptiste Camps, et al.. CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond. 2024. ⟨hal-04453952⟩

搜集汇总

数据集介绍

构建方式

在数字人文领域，手写文本识别技术的进步为历史文献的数字化分析提供了关键支持。CATMuS Medieval数据集的构建依托于多机构协作，通过统一的中世纪手稿转录框架，整合了超过200份8至16世纪的拉丁文手稿与古版书。其标注过程遵循严格的学术规范，由跨学科团队共同完成，确保了转录标准的一致性，涵盖了10种语言、逾16万行文本及500万字符，为复杂历史源料的标准化处理树立了典范。

特点

该数据集以其跨世纪、多语言的广泛覆盖而著称，囊括了从中世纪早期至文艺复兴时期的丰富手稿样本。其核心特点在于提供了丰富的元数据，如生产世纪、语言、体裁与书写体等，支持手写文本识别、书写体分类及年代判定等多维度基准测试。尽管数据在古法语、中古荷兰语与西班牙语方面存在倾斜，但拉丁语作为贯穿各世纪的代表性语言，为跨时代比较研究提供了稳定基础。

使用方法

研究者可通过HuggingFace平台直接加载数据集，利用其预设的划分列进行训练、验证与测试集的拆分。图像数据存储于‘im’列，对应文本位于‘text’列，便于图像到文本任务的直接应用。该数据集适用于手写文本识别模型的评估与优化，同时也可拓展至书写体分类、文献年代分析等辅助任务，为数字古文书学与计算机视觉的探索性研究提供结构化基准环境。

背景与挑战

背景概述

手写文本识别技术作为将手稿图像转化为机器可读格式的关键工具，已显著提升了学者对大量文献集合的分析效率。然而，针对中世纪拉丁文手稿这类复杂且异质的历史资料，构建统一的标注基准仍面临诸多困难。在此背景下，由法国国家图书馆数据实验室、Biblissima+等机构资助，Thibault Clérice等人于2024年主导创建了CATMuS Medieval数据集。该数据集汇集了来自8至16世纪超过200份手稿与古版书，涵盖十种语言、逾16万行文本及500万字符，旨在通过标准化的转录框架，为手写文本识别、字体分类及年代判定等多维度任务提供可靠的评测基准，从而推动数字古文书学与计算机视觉领域的交叉研究。

当前挑战

该数据集致力于解决中世纪手稿手写文本识别领域的核心挑战：历史文献因年代、语言、书写风格及保存状态的多样性，导致自动识别模型在跨世纪、跨语言的泛化能力上存在显著局限。构建过程中的挑战主要体现在标注一致性上，不同项目与机构对中世纪手稿的转录标准各异，需协调多国专家团队建立统一的标注规范；同时，数据收集面临历史文献分布不均的问题，如古法语、中古荷兰语及西班牙语资料集中于14世纪，而除拉丁语外其他语言的世纪覆盖范围有限，这可能导致模型训练时的表征偏差。

常用场景

经典使用场景

在中世纪手稿数字化研究领域，CATMuS/medieval数据集为手写文本识别任务提供了标准化的评估基准。该数据集汇集了8至16世纪拉丁文字手稿的16万余行文本，覆盖十种语言变体，其统一的转录框架使得研究者能够系统评估模型在不同书写风格、语言和年代特征下的识别性能。通过提供丰富的元数据标注，该数据集不仅支持基础的文字识别，还为跨世纪手稿的书写风格演变分析奠定了数据基础。

解决学术问题

该数据集有效解决了中世纪手稿转录中因标准不统一导致的评估困难问题。传统手稿数字化项目常因转录规范差异而难以横向比较模型性能，CATMuS通过建立跨机构协作的标注体系，为复杂历史文献的自动处理提供了可复现的基准。其多维度元数据设计使得研究者能够深入探究书写年代、语言变体与文字识别准确率之间的关联，推动了数字古文书学领域方法论的系统化发展。

衍生相关工作

围绕该数据集已衍生出多个重要研究方向，包括基于多任务学习的跨世纪手写体分类模型、结合视觉特征的文献断代方法以及生成式古文字复原技术。相关研究团队进一步扩展了数据集的标注维度，开发出针对特定书写风格的迁移学习框架。这些工作不仅深化了对手稿文字演变规律的理解，也为低资源历史语言的自动处理提供了新的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集