medieval-segmentation

Hugging Face2024-07-19 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/CATMuS/medieval-segmentation

下载链接

链接失效反馈

官方服务：

资源简介：

CATMuS Medieval Segmentation数据集是一个专门为中世纪手稿的布局分析设计的专业数据集，使用SegmOnto词汇进行区域和线条分类。该数据集解决了在布局分析任务中建立一致的地面真实性的挑战，特别是对于中世纪手稿的复杂和异质的历史来源。数据集提供了统一的注释实践框架，为评估自动布局分析模型提供了基准环境，并支持计算机视觉和数字古文字学中的探索性工作。数据集由多个机构和项目合作开发，涵盖了超过200份手稿和10种不同语言的印本，使用SegmOnto词汇进行了丰富的结构注释。

创建时间：

2024-07-19

原始信息汇总

数据集概述

数据集详情

CATMuS Medieval Segmentation 是一个专门为中世纪手稿的布局分析设计的数据集，使用 SegmOnto 词汇进行区域和线条分类。该数据集解决了布局分析任务中建立一致地面实况的挑战，特别是对于8世纪到15世纪CE的拉丁文手稿等复杂且异质的历史来源。它是CATMuS Medieval数据集的一个子集，专注于HTR（手写文本识别）。

数据集特点

为中世纪手稿的布局提供统一的注释框架。
通过一些元数据（目前是生产世纪）评估自动布局分析模型在多个维度的基准环境。
其他任务（如数据方法）的基准环境。
基于布局任务的计算机视觉和数字古文字学探索工作的平台，如布局生成。

数据集描述

策划者： Thibault Clérice (Inria)
资助者： BnF Datalab, Biblissima +, DIM PAMIR
许可证： CC-BY 4.0

文档

	train	dev	test	Total
images	1336	191	178	1705
manuscripts	159	20	28	207

世纪覆盖

	train	dev	test	Total
Century:08	2	0	0	2
Century:09	111	1	0	112
Century:10	11	0	38	49
Century:11	27	0	0	27
Century:12	19	17	10	46
Century:13	230	9	20	259
Century:14	241	111	39	391
Century:15	563	36	19	618
Century:16	132	17	52	201

线条

	train	dev	test	Total
Line:DefaultLine	81783	13554	12595	107932
Line:DropCapitalLine	1175	105	100	1380
Line:HeadingLine	1381	701	165	2247
Line:InterlinearLine	2808	27	2234	5069
Line:MusicLine	167	0	0	167
Line:TironianSignLine	282	0	0	282

区域

	train	dev	test	Total
Zone:DamageZone	12	1	0	13
Zone:DigitizationArtefactZone	28	0	0	28
Zone:DropCapitalZone	1567	102	132	1801
Zone:GraphicZone	300	7	15	322
Zone:MainZone	2317	365	294	2976
Zone:MarginTextZone	916	146	199	1261
Zone:MusicZone	179	0	0	179
Zone:NumberingZone	632	102	95	829
Zone:QuireMarksZone	86	9	15	110
Zone:RunningTitleZone	340	91	18	449
Zone:SealZone	3	0	0	3
Zone:StampZone	39	5	5	49
Zone:TitlePageZone	4	1	2	7

数据集结构

data 包含3个拆分，通过 load_dataset("CATMuS/medieval-segmentation") 加载。它们与 Catmus Medieval (for HTR) 的拆分相同。
每个图像都带有注释：
- file_name（从根路径开始）
- shelfmark 标识符
- century 日期信息
- project 最初生成数据的项目的名称
- width 页面的宽度（以像素为单位）
- height 页面的高度（以像素为单位）
- objects 包含页面中每个对象的序列值：
  - id 主要用于块（如列）和线条之间的父子关系
  - bbox（形状：[x1, y1, x2, y2]，左上到右下）
  - polygons（形状：[x, y, x, y, x, y, ...]）
  - category 使用 SegmOnto 指南的第一级字符串列表
  - type 可以是 block（区域）或 line
  - parent 包含父级的id（对于块为空，对于线条可为空）

使用

直接使用

布局分析

超出范围的使用

文本到图像

引用

BibTeX:

tex @unpublished{clerice:hal-04453952, TITLE = {{CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond}}, AUTHOR = {Cl{e}rice, Thibault and Pinche, Ariane and Vlachou-Efstathiou, Malamatenia and Chagu{e}, Alix and Camps, Jean-Baptiste and Gille-Levenson, Matthias and Brisville-Fertin, Olivier and Fischer, Franz and Gervers, Michaels and Boutreux, Agn{`e}s and Manton, Avery and Gabay, Simon and OConnor, Patricia and Haverals, Wouter and Kestemont, Mike and Vandyck, Caroline and Kiessling, Benjamin}, URL = {https://inria.hal.science/hal-04453952}, NOTE = {working paper or preprint}, YEAR = {2024}, MONTH = Feb, KEYWORDS = {Historical sources ; medieval manuscripts ; Latin scripts ; benchmarking dataset ; multilingual ; handwritten text recognition}, PDF = {https://inria.hal.science/hal-04453952/file/ICDAR24___CATMUS_Medieval-1.pdf}, HAL_ID = {hal-04453952}, HAL_VERSION = {v1}, }

APA:

Thibault Clérice, Ariane Pinche, Malamatenia Vlachou-Efstathiou, Alix Chagué, Jean-Baptiste Camps, et al.. CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond. 2024. ⟨hal-04453952⟩

数据集卡联系人

Thibault Clérice (first.last@inria.fr)

搜集汇总

数据集介绍

构建方式

CATMuS Medieval Segmentation数据集的构建基于对中世纪手稿的布局分析需求，采用了SegmOnto词汇表进行区域和行分类。该数据集通过多机构合作，涵盖了8至15世纪的200多份手稿和印刷品，涉及10种不同语言。数据集的构建过程包括对手稿图像的详细标注，确保了一致的标注实践，并为自动布局分析模型提供了基准测试环境。

特点

该数据集的特点在于其广泛的时间跨度和语言多样性，涵盖了从中世纪早期到文艺复兴时期的手稿。数据集提供了丰富的结构注释，包括行、区域和页面的详细标注，使用SegmOnto词汇表进行分类。此外，数据集还包含元数据，如手稿的世纪信息，为研究者提供了多维度的分析工具。

使用方法

CATMuS Medieval Segmentation数据集的使用方法包括通过Hugging Face的`load_dataset`函数加载数据，数据分为训练集、开发集和测试集。每张图像都附有文件名、书架标记、世纪信息、项目来源、页面尺寸以及对象序列等详细注释。研究者可以利用这些数据进行布局分析、模型评估以及数字古文字学的研究。

背景与挑战

背景概述

CATMuS Medieval Segmentation数据集由Thibault Clérice等人于2024年创建，旨在为中世纪手稿的布局分析提供统一的标注框架。该数据集专注于8至15世纪的拉丁文手稿，涵盖了200多份手稿和早期印刷品，涉及10种不同语言。通过使用SegmOnto词汇表进行区域和行分类，CATMuS旨在解决中世纪手稿分析中因标准多样性带来的挑战。该数据集不仅为自动布局分析模型提供了基准测试环境，还推动了数字人文领域的研究进展，特别是在计算机视觉和数字古文字学中的应用。

当前挑战

CATMuS Medieval Segmentation数据集面临的挑战主要来自两个方面。首先，中世纪手稿的复杂性和异质性使得建立一致的标注标准极为困难，尤其是在多语言和跨世纪的背景下。其次，数据集的构建过程中，如何确保标注的一致性和准确性是一个重大挑战，特别是在处理不同手稿的布局结构时。此外，数据集的标注工作依赖于大量的人工参与，如何高效管理和协调这些标注任务也是一个技术难题。这些挑战不仅影响了数据集的构建效率，也对模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

CATMuS Medieval Segmentation数据集在数字人文领域中被广泛应用于中世纪手稿的布局分析。通过使用SegmOnto词汇表，该数据集为研究人员提供了一个统一的框架，用于对8至15世纪的拉丁文手稿进行区域和行分类。这一数据集特别适用于处理复杂且异质的历史文献，帮助研究者理解手稿的结构和内容分布。

实际应用

在实际应用中，CATMuS Medieval Segmentation数据集被用于开发自动化的手稿分析工具，帮助图书馆、档案馆和博物馆对大量历史文献进行数字化处理和分析。这些工具能够自动识别手稿中的不同区域（如标题、正文、插图等），从而加速文献的整理和检索过程，为历史研究提供有力支持。

衍生相关工作

基于CATMuS Medieval Segmentation数据集，许多相关研究工作得以展开。例如，研究人员开发了基于深度学习的布局分析模型，能够自动识别手稿中的不同区域和行。此外，该数据集还促进了跨学科合作，推动了数字人文与计算机科学的融合，衍生出许多关于手稿年代鉴定、多语言处理等方面的创新研究。

以上内容由遇见数据集搜集并总结生成