medieval-data/mgh-critical-edition-layout
收藏MGH Layout Detection Dataset
数据集描述
概述
该数据集包含来自Ernestus Duemmler于1895年编辑的Alcuin信件的MGH批判版扫描件。数字扫描件来源于DMGH的仓库,可通过此处访问。扫描件使用CVAT进行标注,标记出两个类别:信件的标题和信件的主体。
创建目的
创建该数据集的主要动机是为了增强OCR的下游任务。OCR经常因扫描页面中的旁注和脚注等干扰而返回错误。通过为信件的标题和主体提供准确的标注,用户可以有效地隔离信件的主要内容,并可能获得更好的OCR结果。
该数据集的未来计划包括扩展标注以涵盖脚注和旁注,从而进一步细化主要内容和补充笔记之间的分界。
类别
目前,数据集包含两个标注类别:
- 信件的标题
- 信件的主体
计划的未来添加包括:
- 脚注
- 旁注
样本标注
生平信息
关于Alcuin
Alcuin of York(约735-804 AD)是英国学者、神职人员、诗人和教师。他出生于约克,成为所谓的“加洛林文艺复兴”中的主要人物。Alcuin对查理曼大帝发起的教育和宗教改革做出了重大贡献,强调古典研究的重要性。
关于Alcuin的信件
Alcuin的信件为加洛林时代提供了关键的见解,突出了当时的智力和宗教讨论。它们作为理解查理曼大帝宫廷中一些重要人物之间互动、他们面临的挑战以及他们提出的解决方案的宝贵资源。这些信件还提供了Alcuin自己思想、他与同僚的关系以及最重要的是他与学生的关系以及他作为查理曼大帝顾问的角色的一扇窗。
数据集和标注详情
标注过程
Alcuin信件的扫描件使用CVAT工具手动标注。主要关注点是划定信件的标题和主体。这种清晰的划分有助于提高OCR工具的精确度,使它们能够针对扫描页面中的特定区域。
数据集限制
由于数据集目前仅关注信件的标题和主体,因此可能无法完全解决OCR任务中旁注和脚注带来的挑战。然而,计划中的扩展以包括这些类别将提供更全面的解决方案。
使用
鉴于源扫描件的非商业限制,该数据集的用户应注意其分发的Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)许可。
附加信息
有关数据集的更多详细信息并访问数字扫描件,请访问上述DMGH仓库链接。



