BiblioPage
收藏arXiv2025-03-25 更新2025-03-27 收录
下载链接:
https://github.com/DCGM/biblio-dataset
下载链接
链接失效反馈官方服务:
资源简介:
BiblioPage是一个由布拉格工业大学信息工程学院创建的,包含大约2000个单行本标题页的扫描图像,这些图像来自捷克共和国的14个图书馆,跨越了广泛的出版时期、印刷风格和布局结构。每个标题页都标注了16个 bibliographic属性,包括标题、贡献者、出版信息等,以及精确的位置信息。该数据集旨在支持自动化提取档案和图书馆中的书目元数据,也可作为文档理解、文档问答和文档信息提取的基准。
BiblioPage is a dataset created by the Faculty of Information Engineering, Czech Technical University in Prague. It contains approximately 2,000 scanned images of monographic title pages sourced from 14 libraries across the Czech Republic, spanning a wide range of publication eras, printing styles, and layout structures. Each title page is annotated with 16 bibliographic attributes, including title, contributors, publication details, etc., along with precise positional information. This dataset aims to support the automated extraction of bibliographic metadata from archives and libraries, and can also serve as a benchmark for document understanding, document question answering, and document information extraction.
提供机构:
布拉格工业大学信息工程学院
创建时间:
2025-03-25
搜集汇总
数据集介绍

构建方式
在文献数字化领域,手工提取书目元数据效率低下且成本高昂。BiblioPage数据集通过系统化方法构建,从14家捷克图书馆采集约2000份专著扉页扫描件,涵盖1485至21世纪不同时期的出版物。采用半自动标注流程,结合高质量OCR识别与图书馆官方目录元数据对齐,生成包含16类书目属性的结构化标注。每项属性均标注边界框位置信息,并由专业团队进行人工校验与修正,确保标注质量。
特点
该数据集以真实场景的多样性为核心特征,包含70%基础书目页、25%复杂排版页及5%极具挑战性的历史特殊印刷页。其独特价值体现在三个方面:时间跨度覆盖六个世纪,完整呈现印刷排版的历史演变;地理上集中捷克地区文献,反映中欧文化特色;标注体系包含标题、贡献者、出版信息等16类属性,且创新性地采用YOLO格式保存几何位置信息。多维度属性分布经过严格平衡处理,测试集通过阈值控制确保每类属性至少有50个实例,为模型评估提供可靠基准。
使用方法
作为书目元数据提取的基准数据集,BiblioPage支持两种典型应用范式。对于传统计算机视觉方法,可结合YOLO或DETR等目标检测模型与Transformer OCR构建处理流程,利用提供的边界框标注进行端到端训练。针对新兴视觉大语言模型,数据集提供标准化JSON格式输入,支持零样本推理评估,用户可通过附加OCR结果提升非英语文本处理效果。评估脚本内置字符错误率(CER)计算与文本标准化流程,支持mAP、F1等指标的自动化测算,特别适用于跨页多属性关联任务的性能验证。
背景与挑战
背景概述
BiblioPage数据集由捷克布尔诺理工大学信息科技学院的研究团队于2025年创建,旨在解决历史文献数字化过程中书目元数据提取的自动化难题。该数据集收录了来自14家捷克图书馆的2,118份专著扉页扫描件,时间跨度从1485年至21世纪,涵盖多样化的排版样式与历史印刷变体。每份样本标注了标题、贡献者、出版信息等16类结构化元数据,并包含精确的边界框位置信息。作为首个专注于扉页书目信息提取的基准数据集,BiblioPage通过融合视觉与文本特征,推动了文档理解、文档问答等领域的算法创新,为文化遗产数字化提供了重要研究基础。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,历史文献存在排版格式高度异构、印刷质量参差不齐等问题,且书目元素常呈现跨行分布或语义依赖关系,导致传统OCR技术难以准确识别;在构建过程中,团队需解决历史字体识别(如Fraktur字体)、多语言混合文本对齐(含捷克语特殊字符)、以及非标准版式下的元数据定位等难题。特别是5%的装饰性扉页样本涉及手写体与复杂版式,需大量人工校验。实验表明,现有视觉语言大模型在捷克语语境下的F1值仅达67%,揭示出小语种文档理解的技术瓶颈。
常用场景
经典使用场景
在数字化图书馆和档案馆的背景下,BiblioPage数据集为自动化提取书目元数据提供了关键支持。该数据集包含来自14个捷克图书馆的约2000个专著标题页,涵盖了从1485年到21世纪的广泛出版时期、排版风格和布局结构。每个标题页都标注了16种书目属性,包括标题、贡献者和出版元数据,以及精确的边界框位置信息。这一数据集特别适用于训练和评估对象检测模型(如YOLO和DETR)与基于Transformer的OCR技术结合的性能,为文档理解和信息提取任务提供了真实世界的基准。
解决学术问题
BiblioPage数据集解决了书目元数据自动化提取中的多个学术研究问题。首先,它填补了现有数据集在多样性和覆盖范围上的不足,特别是针对历史文献和现实世界档案中的高度变异性排版。其次,通过提供精确的边界框标注和结构化元数据,该数据集支持了视觉与文本信息的多模态融合研究,提升了模型在复杂布局下的识别能力。此外,数据集还促进了视觉大语言模型(VLLM)在零样本设置下的性能评估,为跨模态学习提供了新的研究方向。
衍生相关工作
BiblioPage数据集催生了多项相关研究和技术改进。基于该数据集,研究者们探索了YOLO和DETR等对象检测模型在书目元数据提取中的性能优化,提出了结合多模态特征的端到端框架。此外,视觉大语言模型(如Llama 3.2-Vision和GPT-4o)的零样本评估也为文档理解任务提供了新的基准。数据集还启发了对历史文献排版分析和跨语言元数据提取的研究,推动了文档信息提取领域的跨学科合作。
以上内容由遇见数据集搜集并总结生成



