five

medieval-data/mgh-critical-edition-layout

收藏
Hugging Face2023-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/medieval-data/mgh-critical-edition-layout
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自MGH关键版本的Alcuin信件扫描图像,这些图像经过CVAT工具标注,标记了两类内容:信件的标题和正文。数据集的创建目的是为了增强OCR任务的效果,通过准确的标注帮助用户隔离信件的主要内容,从而提高OCR的准确性。未来计划扩展标注内容,包括脚注和边注。数据集的特征包括图像ID、图像、宽度、高度以及对象信息(如边界框、类别等)。数据集分为训练集和验证集,分别包含79和21个样本。
提供机构:
medieval-data
原始信息汇总

MGH Layout Detection Dataset

数据集描述

概述

该数据集包含来自Ernestus Duemmler于1895年编辑的Alcuin信件的MGH批判版扫描件。数字扫描件来源于DMGH的仓库,可通过此处访问。扫描件使用CVAT进行标注,标记出两个类别:信件的标题和信件的主体。

创建目的

创建该数据集的主要动机是为了增强OCR的下游任务。OCR经常因扫描页面中的旁注和脚注等干扰而返回错误。通过为信件的标题和主体提供准确的标注,用户可以有效地隔离信件的主要内容,并可能获得更好的OCR结果。

该数据集的未来计划包括扩展标注以涵盖脚注和旁注,从而进一步细化主要内容和补充笔记之间的分界。

类别

目前,数据集包含两个标注类别:

  • 信件的标题
  • 信件的主体

计划的未来添加包括:

  • 脚注
  • 旁注

样本标注

sample_annotation

生平信息

关于Alcuin

Alcuin of York(约735-804 AD)是英国学者、神职人员、诗人和教师。他出生于约克,成为所谓的“加洛林文艺复兴”中的主要人物。Alcuin对查理曼大帝发起的教育和宗教改革做出了重大贡献,强调古典研究的重要性。

关于Alcuin的信件

Alcuin的信件为加洛林时代提供了关键的见解,突出了当时的智力和宗教讨论。它们作为理解查理曼大帝宫廷中一些重要人物之间互动、他们面临的挑战以及他们提出的解决方案的宝贵资源。这些信件还提供了Alcuin自己思想、他与同僚的关系以及最重要的是他与学生的关系以及他作为查理曼大帝顾问的角色的一扇窗。

数据集和标注详情

标注过程

Alcuin信件的扫描件使用CVAT工具手动标注。主要关注点是划定信件的标题和主体。这种清晰的划分有助于提高OCR工具的精确度,使它们能够针对扫描页面中的特定区域。

数据集限制

由于数据集目前仅关注信件的标题和主体,因此可能无法完全解决OCR任务中旁注和脚注带来的挑战。然而,计划中的扩展以包括这些类别将提供更全面的解决方案。

使用

鉴于源扫描件的非商业限制,该数据集的用户应注意其分发的Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可。

附加信息

有关数据集的更多详细信息并访问数字扫描件,请访问上述DMGH仓库链接。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作