five

medieval-segmentation

收藏
Hugging Face2024-07-19 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/CATMuS/medieval-segmentation
下载链接
链接失效反馈
官方服务:
资源简介:
CATMuS Medieval Segmentation数据集是一个专门为中世纪手稿的布局分析设计的专业数据集,使用SegmOnto词汇进行区域和线条分类。该数据集解决了在布局分析任务中建立一致的地面真实性的挑战,特别是对于中世纪手稿的复杂和异质的历史来源。数据集提供了统一的注释实践框架,为评估自动布局分析模型提供了基准环境,并支持计算机视觉和数字古文字学中的探索性工作。数据集由多个机构和项目合作开发,涵盖了超过200份手稿和10种不同语言的印本,使用SegmOnto词汇进行了丰富的结构注释。
创建时间:
2024-07-19
原始信息汇总

数据集概述

数据集详情

CATMuS Medieval Segmentation 是一个专门为中世纪手稿的布局分析设计的数据集,使用 SegmOnto 词汇进行区域和线条分类。该数据集解决了布局分析任务中建立一致地面实况的挑战,特别是对于8世纪到15世纪CE的拉丁文手稿等复杂且异质的历史来源。它是CATMuS Medieval数据集的一个子集,专注于HTR(手写文本识别)。

数据集特点

  • 为中世纪手稿的布局提供统一的注释框架。
  • 通过一些元数据(目前是生产世纪)评估自动布局分析模型在多个维度的基准环境。
  • 其他任务(如数据方法)的基准环境。
  • 基于布局任务的计算机视觉和数字古文字学探索工作的平台,如布局生成。

数据集描述

  • 策划者: Thibault Clérice (Inria)
  • 资助者: BnF Datalab, Biblissima +, DIM PAMIR
  • 许可证: CC-BY 4.0

文档

train dev test Total
images 1336 191 178 1705
manuscripts 159 20 28 207

世纪覆盖

train dev test Total
Century:08 2 0 0 2
Century:09 111 1 0 112
Century:10 11 0 38 49
Century:11 27 0 0 27
Century:12 19 17 10 46
Century:13 230 9 20 259
Century:14 241 111 39 391
Century:15 563 36 19 618
Century:16 132 17 52 201

线条

train dev test Total
Line:DefaultLine 81783 13554 12595 107932
Line:DropCapitalLine 1175 105 100 1380
Line:HeadingLine 1381 701 165 2247
Line:InterlinearLine 2808 27 2234 5069
Line:MusicLine 167 0 0 167
Line:TironianSignLine 282 0 0 282

区域

train dev test Total
Zone:DamageZone 12 1 0 13
Zone:DigitizationArtefactZone 28 0 0 28
Zone:DropCapitalZone 1567 102 132 1801
Zone:GraphicZone 300 7 15 322
Zone:MainZone 2317 365 294 2976
Zone:MarginTextZone 916 146 199 1261
Zone:MusicZone 179 0 0 179
Zone:NumberingZone 632 102 95 829
Zone:QuireMarksZone 86 9 15 110
Zone:RunningTitleZone 340 91 18 449
Zone:SealZone 3 0 0 3
Zone:StampZone 39 5 5 49
Zone:TitlePageZone 4 1 2 7

数据集结构

  • data 包含3个拆分,通过 load_dataset("CATMuS/medieval-segmentation") 加载。它们与 Catmus Medieval (for HTR) 的拆分相同。
  • 每个图像都带有注释:
    • file_name(从根路径开始)
    • shelfmark 标识符
    • century 日期信息
    • project 最初生成数据的项目的名称
    • width 页面的宽度(以像素为单位)
    • height 页面的高度(以像素为单位)
    • objects 包含页面中每个对象的序列值:
      • id 主要用于块(如列)和线条之间的父子关系
      • bbox(形状:[x1, y1, x2, y2],左上到右下)
      • polygons(形状:[x, y, x, y, x, y, ...]
      • category 使用 SegmOnto 指南的第一级字符串列表
      • type 可以是 block(区域)或 line
      • parent 包含父级的id(对于块为空,对于线条可为空)

使用

直接使用

  • 布局分析

超出范围的使用

  • 文本到图像

引用

BibTeX:

tex @unpublished{clerice:hal-04453952, TITLE = {{CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond}}, AUTHOR = {Cl{e}rice, Thibault and Pinche, Ariane and Vlachou-Efstathiou, Malamatenia and Chagu{e}, Alix and Camps, Jean-Baptiste and Gille-Levenson, Matthias and Brisville-Fertin, Olivier and Fischer, Franz and Gervers, Michaels and Boutreux, Agn{`e}s and Manton, Avery and Gabay, Simon and OConnor, Patricia and Haverals, Wouter and Kestemont, Mike and Vandyck, Caroline and Kiessling, Benjamin}, URL = {https://inria.hal.science/hal-04453952}, NOTE = {working paper or preprint}, YEAR = {2024}, MONTH = Feb, KEYWORDS = {Historical sources ; medieval manuscripts ; Latin scripts ; benchmarking dataset ; multilingual ; handwritten text recognition}, PDF = {https://inria.hal.science/hal-04453952/file/ICDAR24___CATMUS_Medieval-1.pdf}, HAL_ID = {hal-04453952}, HAL_VERSION = {v1}, }

APA:

Thibault Clérice, Ariane Pinche, Malamatenia Vlachou-Efstathiou, Alix Chagué, Jean-Baptiste Camps, et al.. CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond. 2024. ⟨hal-04453952⟩

数据集卡联系人

Thibault Clérice (first.last@inria.fr)

搜集汇总
数据集介绍
main_image_url
构建方式
CATMuS Medieval Segmentation数据集的构建基于对中世纪手稿的布局分析需求,采用了SegmOnto词汇表进行区域和行分类。该数据集通过多机构合作,涵盖了8至15世纪的200多份手稿和印刷品,涉及10种不同语言。数据集的构建过程包括对手稿图像的详细标注,确保了一致的标注实践,并为自动布局分析模型提供了基准测试环境。
特点
该数据集的特点在于其广泛的时间跨度和语言多样性,涵盖了从中世纪早期到文艺复兴时期的手稿。数据集提供了丰富的结构注释,包括行、区域和页面的详细标注,使用SegmOnto词汇表进行分类。此外,数据集还包含元数据,如手稿的世纪信息,为研究者提供了多维度的分析工具。
使用方法
CATMuS Medieval Segmentation数据集的使用方法包括通过Hugging Face的`load_dataset`函数加载数据,数据分为训练集、开发集和测试集。每张图像都附有文件名、书架标记、世纪信息、项目来源、页面尺寸以及对象序列等详细注释。研究者可以利用这些数据进行布局分析、模型评估以及数字古文字学的研究。
背景与挑战
背景概述
CATMuS Medieval Segmentation数据集由Thibault Clérice等人于2024年创建,旨在为中世纪手稿的布局分析提供统一的标注框架。该数据集专注于8至15世纪的拉丁文手稿,涵盖了200多份手稿和早期印刷品,涉及10种不同语言。通过使用SegmOnto词汇表进行区域和行分类,CATMuS旨在解决中世纪手稿分析中因标准多样性带来的挑战。该数据集不仅为自动布局分析模型提供了基准测试环境,还推动了数字人文领域的研究进展,特别是在计算机视觉和数字古文字学中的应用。
当前挑战
CATMuS Medieval Segmentation数据集面临的挑战主要来自两个方面。首先,中世纪手稿的复杂性和异质性使得建立一致的标注标准极为困难,尤其是在多语言和跨世纪的背景下。其次,数据集的构建过程中,如何确保标注的一致性和准确性是一个重大挑战,特别是在处理不同手稿的布局结构时。此外,数据集的标注工作依赖于大量的人工参与,如何高效管理和协调这些标注任务也是一个技术难题。这些挑战不仅影响了数据集的构建效率,也对模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
CATMuS Medieval Segmentation数据集在数字人文领域中被广泛应用于中世纪手稿的布局分析。通过使用SegmOnto词汇表,该数据集为研究人员提供了一个统一的框架,用于对8至15世纪的拉丁文手稿进行区域和行分类。这一数据集特别适用于处理复杂且异质的历史文献,帮助研究者理解手稿的结构和内容分布。
实际应用
在实际应用中,CATMuS Medieval Segmentation数据集被用于开发自动化的手稿分析工具,帮助图书馆、档案馆和博物馆对大量历史文献进行数字化处理和分析。这些工具能够自动识别手稿中的不同区域(如标题、正文、插图等),从而加速文献的整理和检索过程,为历史研究提供有力支持。
衍生相关工作
基于CATMuS Medieval Segmentation数据集,许多相关研究工作得以展开。例如,研究人员开发了基于深度学习的布局分析模型,能够自动识别手稿中的不同区域和行。此外,该数据集还促进了跨学科合作,推动了数字人文与计算机科学的融合,衍生出许多关于手稿年代鉴定、多语言处理等方面的创新研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作