CATMuS/modern
收藏Hugging Face2024-11-05 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/CATMuS/modern
下载链接
链接失效反馈官方服务:
资源简介:
CATMuS Modern and Contemporary (McCATMuS) 数据集是一个用于手写文本识别(HTR)任务的数据集,旨在为现代和当代手稿提供一个统一的注释框架,并用于评估自动文本识别模型。数据集包含超过170份手稿,涵盖8种语言(法语、西班牙语、意大利语、英语、拉丁语、德语、奥克语和中古法语),包括超过115,000行文本和近400万个字符,时间跨度从16世纪早期至今。数据集还提供了丰富的元数据,如世纪、语言和书写技术,并支持脚本分类和年代分类等任务。数据集的结构包括训练、验证和测试集,每个文本行都附有日期、类型、区域类型和行类型等信息。
The McCATMuS dataset focuses on handwritten text recognition (HTR) for modern and contemporary manuscripts. The dataset offers a variety of languages and writing types, designed to support benchmarking and exploratory work in computer vision and digital paleography. Curated by Alix Chagué, the dataset includes contributions from multiple institutions and projects committed to Open Science. It contains over 170 manuscripts in 8 different languages, with more than 115,000 lines of text and nearly 4 million characters. The dataset is licensed under CC-BY.
提供机构:
CATMuS
原始信息汇总
数据集概述
基本信息
- 数据集名称: Mc CATMuS
- 版本: 1.0.0
- 许可证: CC-BY
- 任务类别: 图像到文本
- 语言: 法语、德语、英语、意大利语、西班牙语、奥克语、拉丁语
- 标签: 光学字符识别、人文、手写文本识别
- 数据量: 100K<n<1M
数据集描述
- 创建者: Alix Chagué
- 语言: 法语、中古法语、西班牙语、意大利语、英语、拉丁语、德语、奥克语
- 数据集特点:
- 提供现代和当代手稿的统一注释框架。
- 支持多维度评估自动文本识别模型,包含世纪、语言和书写技术等元数据。
- 支持脚本分类和日期分类等额外任务的基准测试。
- 支持计算机视觉和数字古文字学中的探索性工作,特别是基于行的任务,包括生成方法。
- 数据集规模: 包含超过170份手稿,涵盖8种语言,超过115,000行文本和近400万个字符,时间跨度从16世纪早期至今。
数据结构
- 数据分割: 数据可通过
load_dataset("CATMuS/modern")加载,并使用gen_split列进行训练、验证和测试分割,大致比例为90/5/5。 - 数据列:
im: 图像列text: 文本列not_before和not_after: 文本行的日期范围genre: 文本类型writing_type: 书写类型(印刷、手写或打字)region_type和line_type: 遵循SegmOnto词汇表shelfmark: 文档标识符project: 原始数据集的项目标识符
数据分割统计
训练集
| 书写类型 | 总数 | 语言及数量 |
|---|---|---|
| 手写 | 70143 | 法语: 64691, 西班牙语: 2864, 德语: 1940, 英语: 390, 意大利语: 258 |
| 印刷 | 34642 | 法语: 30352, 中古法语: 1873, 拉丁语: 1590, 意大利语: 258, 奥克语: 258, 德语: 171, 英语: 80, 西班牙语: 60 |
| 打字 | 298 | 英语: 298 |
验证集
| 书写类型 | 总数 | 语言及数量 |
|---|---|---|
| 手写 | 3753 | 法语: 3582, 西班牙语: 149, 英语: 21, 德语: 1 |
| 印刷 | 1839 | 法语: 1622, 中古法语: 115, 拉丁语: 82, 奥克语: 12, 西班牙语: 4, 英语: 3, 德语: 1 |
| 打字 | 18 | 英语: 18 |
测试集
| 书写类型 | 总数 | 语言及数量 |
|---|---|---|
| 手写 | 3825 | 法语: 3651, 西班牙语: 152, 英语: 21, 德语: 1 |
| 印刷 | 1767 | 法语: 1553, 中古法语: 115, 拉丁语: 82, 奥克语: 12, 英语: 3, 西班牙语: 1, 德语: 1 |
| 打字 | 18 | 英语: 18 |
使用场景
直接使用
- 手写文本识别
- 日期分类
- 脚本分类
超出范围的使用
- 文本到图像
数据集来源
- 数据集由多个项目和机构的开源数据构建,具体来源包括但不限于:
- Chagué, A. (2023). Moonshines (2.0.2) [Dataset]. https://github.com/alix-tz/moonshines
- Chagué, A., Champougny, K., Meissel, N., Genero, J.-D., Skilbeck-Gaborit, E., Vanneau, L., Bey, L., Le Fourner, V., Albert, A., Riondet, C., & Martini, M. (2022). Time Us Corpus (0.0.3) [Dataset]. https://doi.org/10.5281/zenodo.6230755
- 其他多个项目和数据集,详见Zotero组。
偏差、风险和限制
- 数据集中的法语占比过高,其他语言的代表性不足。
- 西班牙语仅有一份文档,奥克语仅在印刷文本中有所体现。
搜集汇总
数据集介绍

背景与挑战
背景概述
CATMuS/modern是一个用于现代和当代手稿转录的图像到文本数据集,包含超过118,000行文本和近400万字符,覆盖从16世纪至今的多个世纪。数据集支持手写文本识别、日期分类和脚本分类等任务,包含法语、德语、英语等7种语言,并具有丰富的元数据如书写类型、区域类型和行类型。
以上内容由遇见数据集搜集并总结生成



