OmniDocBench

Hugging Face2024-12-10 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/opendatalab/OmniDocBench

下载链接

链接失效反馈

官方服务：

资源简介：

OmniDocBench是一个用于多样化文档解析评估的数据集，包含981页PDF，涵盖9种文档类型、4种布局类型和3种语言类型。数据集具有丰富的标注，包括15种块级标注和4种跨级标注，以及文本、公式和表格的识别结果。此外，还提供了文档组件的阅读顺序标注和多种属性标签。数据集通过手动筛选、智能标注和专家质量检查确保高质量。评估代码套件设计用于端到端和单模块评估，以确保评估的公平性和准确性。

OmniDocBench is a dataset for diversified document parsing evaluation. It contains 981 pages of PDF documents, covering 9 document types, 4 layout types and 3 language types. The dataset is equipped with rich annotations, including 15 block-level annotations, 4 cross-level annotations, as well as recognition results for text, mathematical formulas and tables. Additionally, reading order annotations of document components and various attribute tags are provided. The dataset guarantees high-quality standards through manual screening, intelligent annotation and expert quality inspection. An accompanying evaluation code suite is designed for both end-to-end and single-module evaluations to ensure the fairness and accuracy of the assessment.

创建时间：

2024-12-02

原始信息汇总

OmniDocBench

OmniDocBench 是一个用于多样化文档解析的评估数据集，具有以下特点：

多样化的文档类型：评估集包含981个PDF页面，涵盖9种文档类型、4种布局类型和3种语言类型。文档类型包括学术论文、财务报告、报纸、教科书、手写笔记等。
丰富的标注：包含15种块级（文本段落、标题、表格等，总计超过20k）和4种跨级（文本行、内联公式、上标/下标等，总计超过80k）文档元素的位置信息，以及每个元素区域的识别结果（文本标注、LaTeX公式标注、表格的LaTeX和HTML标注）。OmniDocBench还提供了文档组件的阅读顺序标注。此外，还包括页面和块级别的各种属性标签，页面属性标签有5种，文本属性标签有3种，表格属性标签有6种。
高标注质量：通过人工筛选、智能标注、人工标注、全专家质量检查和大模型质量检查，数据质量较高。
评估代码套件：设计了端到端的评估和单模块评估代码，以确保评估的公平性和准确性。评估代码套件可在 OmniDocBench 找到。

更新

[2024/12/10] 修复了部分样本的高度和宽度字段。此修复仅影响页面级别的高度和宽度字段，不影响其他标注的正确性。
[2024/12/04] 发布了OmniDocBench评估数据集。

数据集介绍

评估集包含981个PDF页面，涵盖9种文档类型、4种布局类型和3种语言类型。OmniDocBench具有丰富的标注，包括15种块级标注（文本段落、标题、表格等）和4种跨级标注（文本行、内联公式、上标/下标等）。所有与文本相关的标注框都包含文本识别标注，公式包含LaTeX标注，表格包含LaTeX和HTML标注。OmniDocBench还提供了文档组件的阅读顺序标注。此外，还包括页面和块级别的各种属性标签，页面属性标签有5种，文本属性标签有3种，表格属性标签有6种。

数据集格式

数据集格式为JSON，结构和字段解释如下：

json [{ "layout_dets": [ // 页面元素列表 { "category_type": "text_block", // 类别名称 "poly": [ 136.0, // 位置信息，左上、右上、右下、左下角的坐标 (x,y) 781.0, 340.0, 781.0, 340.0, 806.0, 136.0, 806.0 ], "ignore": false, // 是否在评估中忽略 "order": 0, // 阅读顺序 "anno_id": 0, // 特殊标注ID，每个布局框唯一 "text": "xxx", // 可选字段，文本OCR结果写在这里 "latex": "$xxx$", // 可选字段，公式和表格的LaTeX写在这里 "html": "xxx", // 可选字段，表格的HTML写在这里 "attribute" {"xxx": "xxx"}, // 布局的分类属性，详细如下 "line_with_spans:": [ // 跨级标注框 { "category_type": "text_span", "poly": [...], "ignore": false, "text": "xxx",
"latex": "$xxx$", }, ... ], "merge_list": [ // 仅在具有合并关系的标注框中存在，合并逻辑取决于是否存在单行换行分隔的段落，如列表类型 { "category_type": "text_block", "poly": [...], ... // 与块级标注相同的字段 "line_with_spans": [...] ... }, ... ] ... ], "page_info": {
"page_no": 0, // 页码 "height": 1684, // 页面高度 "width": 1200, // 页面宽度 "image_path": "xx/xx/", // 标注页面的文件名 "page_attribute": {"xxx": "xxx"} // 页面属性标签 }, "extra": { "relation": [ // 相关标注 {
"source_anno_id": 1, "target_anno_id": 2, "relation": "parent_son" // 图/表与其对应标题/脚注类别之间的关系标签 }, {
"source_anno_id": 5, "target_anno_id": 6, "relation_type": "truncated" // 由于布局原因导致的段落截断关系标签，将在评估中作为一段连接和评估 }, ] } }, ... ]

评估类别

评估类别包括：

块级标注框

title # 标题 text_block # 段落级纯文本 figure, # 图类型 figure_caption, # 图描述/标题 figure_footnote, # 图注释 table, # 表格主体 table_caption, # 表格描述/标题 table_footnote, # 表格注释 equation_isolated, # 显示公式 equation_caption, # 公式编号 header # 页眉 footer # 页脚 page_number # 页码 page_footnote # 页注释 abandon, # 其他丢弃内容（例如页面中间的无关信息） code_txt, # 代码块 code_txt_caption, # 代码块描述 reference, # 参考文献

跨级标注框

text_span # 跨级纯文本 equation_ignore, # 忽略的公式 equation_inline, # 内联公式 footnote_mark, # 文档上标/下标

属性标签

页面分类属性包括：

data_source: #PDF类型分类 academic_literature # 学术文献 PPT2PDF # PPT转PDF book # 黑白书籍和教科书 colorful_textbook # 彩色教科书，包含图像 exam_paper # 考试试卷 note # 手写笔记 magazine # 杂志 research_report # 研究报告和财务报告 newspaper # 报纸

language: #语言类型 en # 英语 simplified_chinese # 简体中文 en_ch_mixed # 英中混合

layout: #页面布局类型 single_column # 单列 double_column # 双列 three_column # 三列 1andmore_column # 一列混合多列，常见于文献 other_layout # 其他布局

watermark: # 是否包含水印 true
false

fuzzy_scan: # 是否模糊扫描 true
false

colorful_backgroud: # 是否包含彩色背景，待识别的内容有超过两种背景颜色 true
false

块级属性 - 表格相关属性：

table_layout: # 表格方向 vertical # 垂直表格 horizontal # 水平表格

with_span: # 合并单元格 False True

line: # 表格边框 full_line # 全边框 less_line # 部分边框 fewer_line # 三线边框 wireless_line # 无边框

language: # 表格语言 table_en # 英语表格 table_simplified_chinese # 简体中文表格 table_en_ch_mixed # 英中混合表格

include_equation: # 表格是否包含公式 False True

include_backgroud: # 表格是否包含背景颜色 False True

table_vertical # 表格是否旋转90或270度 False True

块级属性 - 文本段落相关属性：

text_language: # 文本语言 text_en # 英语 text_simplified_chinese # 简体中文 text_en_ch_mixed # 英中混合

text_background: # 文本背景颜色 white # 默认值，白色背景 single_colored # 单背景颜色，非白色 multi_colored # 多背景颜色

text_rotate: # 段落内文本旋转分类 normal # 默认值，水平文本，无旋转 rotate90 # 旋转角度，顺时针90度 rotate180 # 顺时针180度 rotate270 # 顺时针270度 horizontal # 文本正常但布局垂直

块级属性 - 公式相关属性：

formula_type: # 公式类型 print # 打印 handwriting # 手写

搜集汇总

数据集介绍

构建方式

OmniDocBench数据集通过精心设计，涵盖了981个PDF页面，涉及9种文档类型、4种布局类型和3种语言类型。其构建过程结合了手动筛选、智能标注、人工标注以及专家质量检查和大规模模型质量检测，确保了数据的高质量。数据集不仅包含了丰富的块级和跨级标注，还提供了阅读顺序标注和多种属性标签，以全面支持文档解析任务的评估。

特点

OmniDocBench数据集的显著特点在于其多样性和高质量标注。数据集涵盖了学术论文、财务报告、报纸等多种文档类型，且包含超过20,000个块级元素和80,000个跨级元素的详细位置信息。此外，数据集还提供了文本、LaTeX公式和表格的识别结果，以及阅读顺序和属性标签，为文档解析任务提供了全面的评估基准。

使用方法

OmniDocBench数据集以JSON格式提供，用户可以通过解析JSON文件获取文档的布局信息、块级和跨级标注、文本识别结果、LaTeX和HTML表格标注等。数据集还提供了评估代码套件，支持端到端和单模块的评估，确保评估的公平性和准确性。用户可以根据需求选择不同的评估类别和属性标签，进行定制化的文档解析任务评估。

背景与挑战

背景概述

OmniDocBench数据集是由OpenDataLab团队于2024年发布的一个综合性文档解析评估数据集，旨在解决现实世界中多样化的文档解析问题。该数据集涵盖了981页PDF文档，涉及9种文档类型、4种布局类型和3种语言类型，包括学术论文、财务报告、报纸、教科书等多种文档形式。OmniDocBench不仅提供了丰富的标注信息，包括15种块级和4种跨级文档元素的位置信息，还包含了文本、LaTeX公式和表格的识别结果。此外，数据集还提供了文档组件的阅读顺序标注和多种属性标签，确保了数据的高质量和多样性。该数据集的发布为文档解析领域的研究提供了强有力的支持，推动了文档解析技术的进一步发展。

当前挑战

OmniDocBench数据集在构建过程中面临了多重挑战。首先，文档类型的多样性要求数据集能够覆盖从学术论文到手写笔记等多种形式，这增加了标注和解析的复杂性。其次，文档布局和语言的多样性使得解析任务更加复杂，尤其是处理多语言混合和复杂布局的文档。此外，高质量的标注需要经过多轮人工筛选、智能标注和专家质量检查，确保数据的准确性和一致性。最后，评估代码套件的设计需要兼顾公平性和准确性，以确保不同模型在数据集上的表现能够得到公正的评估。这些挑战共同构成了OmniDocBench数据集的核心难点，推动了文档解析技术的不断进步。

常用场景

经典使用场景

OmniDocBench数据集在文档解析领域中展现了其卓越的应用潜力，尤其是在处理多类型、多语言、多布局的文档时。该数据集的经典使用场景包括但不限于学术论文的自动解析、金融报告的结构化提取、以及报纸和教科书的自动化处理。通过丰富的标注信息，研究者可以训练模型以识别和解析复杂的文档结构，如表格、公式、标题和段落，从而实现文档内容的自动化提取和分析。

解决学术问题

OmniDocBench数据集解决了文档解析领域中长期存在的多类型文档处理难题，尤其是在处理学术论文、金融报告等复杂文档时，传统的解析方法往往难以应对多样化的布局和语言类型。该数据集通过提供高质量的标注信息，帮助研究者开发出能够处理多种文档类型和布局的解析模型，从而推动了文档自动化处理技术的发展，具有重要的学术研究意义。

衍生相关工作

基于OmniDocBench数据集，研究者们开发了多种文档解析模型和工具，推动了文档自动化处理技术的发展。例如，有研究者利用该数据集训练了能够处理多语言、多布局文档的深度学习模型，显著提高了文档解析的准确性和效率。此外，该数据集还激发了相关领域的研究，如文档结构化提取、文档内容理解等，进一步拓展了文档解析技术的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集