AnnoPage Dataset
收藏arXiv2025-03-28 更新2025-04-03 收录
下载链接:
https://doi.org/10.5281/zenodo.12788419
下载链接
链接失效反馈官方服务:
资源简介:
AnnoPage Dataset是一个包含7550页历史文献的新数据集,主要由布拉格工业大学信息学院创建。这些页面主要来自捷克和德国的历史文献,时间跨度从1485年至今,重点放在19世纪末和20世纪初的文献。数据集旨在支持文档布局分析和对象检测研究,每一页都标注有25个类别的非文本元素,如图片、地图、装饰元素或图表等。该数据集按照捷克图像文档处理方法进行标注,划分为开发集和测试集,测试集特别挑选以保持类别分布。
The AnnoPage Dataset is a novel dataset containing 7,550 pages of historical documents, primarily created by the Faculty of Information Technology of the Czech Technical University in Prague. These pages are mainly sourced from historical documents of the Czech Republic and Germany, spanning the period from 1485 to the present day, with a particular focus on documents from the late 19th and early 20th centuries. The dataset aims to support research on document layout analysis and object detection. Each page is annotated with non-text elements across 25 categories, including images, maps, decorative elements, charts, and other similar items. Annotated in accordance with Czech image document processing methodologies, the dataset is divided into a development set and a test set, where the test set was specifically selected to preserve the category distribution.
提供机构:
布拉格工业大学信息学院
创建时间:
2025-03-28
搜集汇总
数据集介绍

构建方式
AnnoPage数据集的构建过程体现了对历史文档非文本元素的系统性整理与标注。该数据集从捷克数字图书馆及其他历史文档数据集中精选了7,550页文档,时间跨度从1485年至今,主要集中在19世纪末至20世纪初。标注工作由专业图书馆员依据捷克图像文档处理方法完成,采用Label Studio平台进行四轮迭代标注,包括人工标注、模型辅助标注及一致性验证。最终数据集包含27,904个轴对齐边界框标注,涵盖25类非文本元素,并划分为开发集和测试集以确保类别分布均衡。
特点
AnnoPage数据集的显著特点在于其精细的类别体系和历史文档的专属性。数据集定义了25类非文本元素,包括图像、地图、装饰元素等历史文档特有的视觉内容,如纹章、扉页标记等。这些标注不仅覆盖常见元素,还包含化学公式、乐谱等专业类别,体现了对历史文献多维度研究的支持。测试集的构建特别注重类别分布的代表性,通过多次抽样优化确保了评估的全面性。数据集的异构性源于多源文档的整合,包括不同语言、时期和出版形式的页面,为模型泛化能力提供了挑战。
使用方法
AnnoPage数据集的使用需结合其结构化设计特点。研究者可通过Zenodo平台获取数据集,其中包含YOLO格式的标注文件及预定义的测试集。开发集可自由划分为训练集和验证集,而测试集固定用于性能评估,推荐采用mAP@50和mAP@50-95作为标准指标。基线实验表明,YOLO系列模型在1024×1024分辨率下表现最佳,为后续研究提供了参考框架。对于历史文档分析任务,建议重点关注模型对模糊类别(如图像与照片)的区分能力,以及处理页面复杂布局的鲁棒性。
背景与挑战
背景概述
AnnoPage Dataset由捷克布尔诺理工大学信息科技学院的研究团队于2025年推出,是一个专注于历史文档非文本元素细粒度分类的创新数据集。该数据集收录了7550页主要来自19世纪末至20世纪初的捷克语和德语历史文献,包含25类非文本元素的轴对齐边界框标注,如图像、地图、装饰元素等。其独特价值在于采用捷克图像文档处理方法学,由专业图书馆员进行标注,确保了历史文献特殊视觉元素标注的准确性。作为首个系统涵盖历史文档特有装饰元素的标注集,该数据集为文档布局分析和对象检测研究提供了重要基准,推动了数字人文领域对历史文献多模态内容的理解与处理。
当前挑战
该数据集主要解决历史文档多模态元素识别中的两大挑战:一是传统OCR技术对非文本元素处理的局限性,二是历史文献特有视觉元素的细粒度分类难题。在构建过程中面临三重困难:跨世纪文献的保存状态差异导致图像质量参差不齐;装饰元素与文本交织带来的标注歧义(如花边文字需整体标注还是分离处理);25类元素间的语义模糊性(如照片与图像、数学公式与化学式的界定)。这些挑战反映了历史文档数字化处理中普遍存在的语义解析与形态识别的复杂性,为计算机视觉与数字人文的跨学科研究提供了典型样本。
常用场景
经典使用场景
AnnoPage数据集在文档布局分析和非文本元素检测领域具有广泛的应用价值。该数据集特别适用于历史文档的数字化处理,能够帮助研究者识别和分类文档中的图像、地图、装饰元素等非文本内容。通过精细标注的25类非文本元素,AnnoPage为文档布局分析任务提供了高质量的基准数据,尤其在处理多语言历史文档时展现出独特优势。
实际应用
在实际应用中,AnnoPage数据集被广泛用于图书馆、档案馆和文化机构的文档数字化项目。通过该数据集训练的模型可以自动识别和分类历史文档中的非文本元素,从而提升文档检索的效率和准确性。例如,博物馆可以利用该技术对馆藏文献中的插图和装饰元素进行自动化管理,为学术研究和公众展示提供支持。
衍生相关工作
AnnoPage数据集衍生了一系列经典研究工作,尤其是在基于YOLO和DETR的目标检测模型优化方面。许多研究利用该数据集验证了不同分辨率输入对模型性能的影响,并提出了改进的文档布局分析算法。此外,该数据集还被用于跨领域研究,如历史文献的图像修复和文化遗产的数字化保护,进一步扩展了其学术影响力。
以上内容由遇见数据集搜集并总结生成



