medieval-segmentation
收藏数据集概述
数据集详情
CATMuS Medieval Segmentation 是一个专门为中世纪手稿的布局分析设计的数据集,使用 SegmOnto 词汇进行区域和线条分类。该数据集解决了布局分析任务中建立一致地面实况的挑战,特别是对于8世纪到15世纪CE的拉丁文手稿等复杂且异质的历史来源。它是CATMuS Medieval数据集的一个子集,专注于HTR(手写文本识别)。
数据集特点
- 为中世纪手稿的布局提供统一的注释框架。
- 通过一些元数据(目前是生产世纪)评估自动布局分析模型在多个维度的基准环境。
- 其他任务(如数据方法)的基准环境。
- 基于布局任务的计算机视觉和数字古文字学探索工作的平台,如布局生成。
数据集描述
- 策划者: Thibault Clérice (Inria)
- 资助者: BnF Datalab, Biblissima +, DIM PAMIR
- 许可证: CC-BY 4.0
文档
| train | dev | test | Total | |
|---|---|---|---|---|
| images | 1336 | 191 | 178 | 1705 |
| manuscripts | 159 | 20 | 28 | 207 |
世纪覆盖
| train | dev | test | Total | |
|---|---|---|---|---|
| Century:08 | 2 | 0 | 0 | 2 |
| Century:09 | 111 | 1 | 0 | 112 |
| Century:10 | 11 | 0 | 38 | 49 |
| Century:11 | 27 | 0 | 0 | 27 |
| Century:12 | 19 | 17 | 10 | 46 |
| Century:13 | 230 | 9 | 20 | 259 |
| Century:14 | 241 | 111 | 39 | 391 |
| Century:15 | 563 | 36 | 19 | 618 |
| Century:16 | 132 | 17 | 52 | 201 |
线条
| train | dev | test | Total | |
|---|---|---|---|---|
| Line:DefaultLine | 81783 | 13554 | 12595 | 107932 |
| Line:DropCapitalLine | 1175 | 105 | 100 | 1380 |
| Line:HeadingLine | 1381 | 701 | 165 | 2247 |
| Line:InterlinearLine | 2808 | 27 | 2234 | 5069 |
| Line:MusicLine | 167 | 0 | 0 | 167 |
| Line:TironianSignLine | 282 | 0 | 0 | 282 |
区域
| train | dev | test | Total | |
|---|---|---|---|---|
| Zone:DamageZone | 12 | 1 | 0 | 13 |
| Zone:DigitizationArtefactZone | 28 | 0 | 0 | 28 |
| Zone:DropCapitalZone | 1567 | 102 | 132 | 1801 |
| Zone:GraphicZone | 300 | 7 | 15 | 322 |
| Zone:MainZone | 2317 | 365 | 294 | 2976 |
| Zone:MarginTextZone | 916 | 146 | 199 | 1261 |
| Zone:MusicZone | 179 | 0 | 0 | 179 |
| Zone:NumberingZone | 632 | 102 | 95 | 829 |
| Zone:QuireMarksZone | 86 | 9 | 15 | 110 |
| Zone:RunningTitleZone | 340 | 91 | 18 | 449 |
| Zone:SealZone | 3 | 0 | 0 | 3 |
| Zone:StampZone | 39 | 5 | 5 | 49 |
| Zone:TitlePageZone | 4 | 1 | 2 | 7 |
数据集结构
data包含3个拆分,通过load_dataset("CATMuS/medieval-segmentation")加载。它们与 Catmus Medieval (for HTR) 的拆分相同。- 每个图像都带有注释:
file_name(从根路径开始)shelfmark标识符century日期信息project最初生成数据的项目的名称width页面的宽度(以像素为单位)height页面的高度(以像素为单位)objects包含页面中每个对象的序列值:id主要用于块(如列)和线条之间的父子关系bbox(形状:[x1, y1, x2, y2],左上到右下)polygons(形状:[x, y, x, y, x, y, ...])category使用 SegmOnto 指南的第一级字符串列表type可以是block(区域)或lineparent包含父级的id(对于块为空,对于线条可为空)
使用
直接使用
- 布局分析
超出范围的使用
- 文本到图像
引用
BibTeX:
tex @unpublished{clerice:hal-04453952, TITLE = {{CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond}}, AUTHOR = {Cl{e}rice, Thibault and Pinche, Ariane and Vlachou-Efstathiou, Malamatenia and Chagu{e}, Alix and Camps, Jean-Baptiste and Gille-Levenson, Matthias and Brisville-Fertin, Olivier and Fischer, Franz and Gervers, Michaels and Boutreux, Agn{`e}s and Manton, Avery and Gabay, Simon and OConnor, Patricia and Haverals, Wouter and Kestemont, Mike and Vandyck, Caroline and Kiessling, Benjamin}, URL = {https://inria.hal.science/hal-04453952}, NOTE = {working paper or preprint}, YEAR = {2024}, MONTH = Feb, KEYWORDS = {Historical sources ; medieval manuscripts ; Latin scripts ; benchmarking dataset ; multilingual ; handwritten text recognition}, PDF = {https://inria.hal.science/hal-04453952/file/ICDAR24___CATMUS_Medieval-1.pdf}, HAL_ID = {hal-04453952}, HAL_VERSION = {v1}, }
APA:
Thibault Clérice, Ariane Pinche, Malamatenia Vlachou-Efstathiou, Alix Chagué, Jean-Baptiste Camps, et al.. CATMuS Medieval: A multilingual large-scale cross-century dataset in Latin script for handwritten text recognition and beyond. 2024. ⟨hal-04453952⟩
数据集卡联系人
Thibault Clérice (first.last@inria.fr)




