five

tejas2102/OmniDocBench

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/tejas2102/OmniDocBench
下载链接
链接失效反馈
官方服务:
资源简介:
OmniDocBench是一个用于现实场景中多样化文档解析的评估数据集,包含1651个PDF页面,覆盖10种文档类型、5种布局类型和5种语言类型。数据集具有丰富的注释,包括28个块级类别(如文本段落、标题、表格、公式、页眉/页脚等)和4个跨度级类别(如文本行、内联公式、上标/下标等)。所有文本相关的注释框都包含文本识别注释,公式包含LaTeX注释,表格包含LaTeX和HTML注释。此外,数据集还提供了阅读顺序注释和页面及块级别的属性标签(如5个页面属性类别、3个文本相关属性和6个表格相关属性)。数据质量高,经过人工筛选、智能标注、人工标注、专家质量检查和大模型质量检查。数据集还提供了评估代码套件,支持端到端评估和单模块评估。

OmniDocBench is an evaluation dataset for diverse document parsing in real-world scenarios, containing 1651 PDF pages covering 10 document types, 5 layout types, and 5 language types. The dataset features rich annotations, including 28 block-level categories (e.g., text paragraphs, titles, tables, formulas, headers/footers) and 4 span-level categories (e.g., text lines, inline formulas, superscripts/subscripts). All text-related annotation boxes contain text recognition annotations, formulas include LaTeX annotations, and tables include both LaTeX and HTML annotations. OmniDocBench also provides reading-order annotations for layout elements and various attribute labels at page and block levels (e.g., 5 page attribute categories, 3 text-related attributes, and 6 table-related attributes). The dataset ensures high annotation quality through manual screening, intelligent annotation, manual annotation, expert quality inspection, and large model quality inspection. It also includes an evaluation code suite for end-to-end and single-module evaluation.
提供机构:
tejas2102
搜集汇总
数据集介绍
main_image_url
构建方式
OmniDocBench的构建过程融合了智能标注与人工精修的双重策略,首先通过自动检测工具生成初步标注框与内容,随后经由专业质检团队对每页数据进行多轮筛查与修正,包括专家级质量审核与大型模型辅助校验,最终形成一个包含1651页PDF的高质量评测集。其覆盖10种文档类型、5种版面布局及5种语言,并系统性地划分了块级与跨度级两类标注体系,前者包含28个类别,后者涵盖4个子类别,同时提供阅读顺序标注与多层级属性标签,确保数据在复杂现实场景中的代表性与准确性。
特点
该数据集的核心优势在于其极致的多样性与精细度,不仅囊括学术论文、财报、报纸及手写笔记等广泛文档形态,还针对每个区域标注了文本、LaTeX公式与表格的HTML代码。尤为突出的是,它引入了28种块级类别(如标题、列表、图表掩码)与4种跨度级类别(如行内公式、脚注标记),并配置了页面属性、文本属性和表格属性等多维分类标签,使模型能够应对模糊扫描、彩色背景及复杂表格等挑战性场景。此外,其公开的评估代码套件支持端到端与单模块评测,保证了基准测试的公平性与可靠性。
使用方法
使用者可通过OmniDocBench提供的标准化评估管线进行系统的性能衡量,该管线涵盖端到端解析、版面检测、表格识别、公式识别及文本OCR五大维度。评测数据以JSON格式存储于OmniDocBench.json文件中,每条记录包含布局检测列表、页面信息与额外关系标注,其中布局元素以多边形坐标、类别、阅读顺序及忽略标志定义。为适配不同输入需求,数据集同时提供了原始图像与PDF格式,并附带转化脚本。建议研究者在实验时依据具体任务选择相应子模块,并引用相关的属性标签以深入分析模型在不同文档场景下的能力边界。
背景与挑战
背景概述
在数字化浪潮席卷全球的当下,海量非结构化文档的自动化解析成为推动知识管理与信息提取的关键技术。然而,现有数据集多聚焦于特定文档类型或单一解析任务,难以应对真实场景中文档类型的多样性、版式的复杂性与语言的混杂性。为此,上海人工智能实验室OpenDataLab团队联合多所高校于2024年底发布了OmniDocBench基准数据集,旨在为多样化的真实世界文档解析提供标准化评估平台。该数据集包含1651个PDF页面,覆盖学术文献、研究报表、报纸、教科书等10种文档类型、5种版式与5种语言,提供了28种区域级与4种行内级细粒度标注,并首次引入阅读顺序标注与多模态属性标签。其发布填补了通用文档解析评估基准的空白,推动了文档智能领域从单一任务向多模态联合解析的范式演进。
当前挑战
OmniDocBench所应对的领域挑战集中在文档解析固有的多维复杂性:首先,真实场景文档形态高度异构,存在版面混排、图文嵌套、公式嵌入表格等复杂结构,对区域检测与内容识别的鲁棒性提出严苛要求;其次,多语言混排与手写、印刷体交叠加剧了OCR与语义理解的难度;此外,阅读顺序恢复与逻辑结构推理(如标题层级、图文对应关系)是构建可读结构化输出的瓶颈。在数据集构建过程中,团队面临三大挑战:标注体系设计需平衡细粒度与可扩展性,最终定义28个区域类别及旋转、合并等属性标签;质量管控需兼顾效率与精准,采用“智能标注-人工校验-专家审查-大模型辅助”四阶流程;数据版权问题则通过严格筛选公开来源与移除违规内容予以规避,确保数据集仅限研究用途。
常用场景
经典使用场景
OmniDocBench作为一份面向真实世界场景的多样化文档解析评估数据集,其核心用途在于为文档智能解析系统提供全面、标准化的性能度量。该数据集精心收录了1651页涵盖10种文档类型、5种版式类型及5种语言类型的PDF页面,囊括学术文献、研报财报、报纸教材、手写笔记与历史档案等丰富形态。凭借对28种块级类别与4种跨度级类别的精细标注,并辅以文本、公式LaTeX、表格LaTeX与HTML的多模态识别结果,OmniDocBench能够支持端到端解析、布局检测、表格识别、公式识别及文本OCR等多项任务的独立或联合评估,尤其适用于评价模型在复杂版面下的阅读顺序恢复与元素属性理解能力。
实际应用
在实际产业环境中,OmniDocBench直接服务于金融、教育、出版与档案管理等对文档数字化有高精度需求的领域。金融机构可利用该数据集评测智能研报解析系统,自动抽取财报中的表格与文本关键信息,提升投资决策效率;教育机构则能验证自动批阅与试卷结构化系统,准确还原手写与印刷混合的题型布局;出版与图书馆行业通过该基准优化古籍数字化与多栏排版解析流程,实现内容的高效入库与检索。此外,OmniDocBench的标准化评测方法降低了文档解析模型在不同场景下的部署门槛,为RAG知识库构建与办公自动化等应用提供了可信赖的性能验证工具。
衍生相关工作
基于OmniDocBench的发布,学术界与工业界衍生出多项关键性的工作方向。一方面,研究者利用其丰富的属性标签与多层级标注,开发了面向阅读顺序预测的序列化模型以及融合文本、公式与表格语义的端到端解析框架,推动了PDF解析任务从独立模块向联合建模的转型。另一方面,该数据集催生了针对特定挑战性场景的改进方法,例如针对含模糊扫描、彩色背景或水印的困难样本,涌现出基于多模态预训练与版面复原的增强策略。此外,其开源评估代码套件促使了DocTR、PaddleOCR等多个主流文档智能系统的评测标准统一,进而衍生出面向特定语言或版式的精简子集,加速了跨领域文档解析研究的复用与进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作