OmniDocBench
收藏OmniDocBench
OmniDocBench 是一个用于多样化文档解析的评估数据集,具有以下特点:
- 多样化的文档类型:评估集包含981个PDF页面,涵盖9种文档类型、4种布局类型和3种语言类型。文档类型包括学术论文、财务报告、报纸、教科书、手写笔记等。
- 丰富的标注:包含15种块级(文本段落、标题、表格等,总计超过20k)和4种跨级(文本行、内联公式、上标/下标等,总计超过80k)文档元素的位置信息,以及每个元素区域的识别结果(文本标注、LaTeX公式标注、表格的LaTeX和HTML标注)。OmniDocBench还提供了文档组件的阅读顺序标注。此外,还包括页面和块级别的各种属性标签,页面属性标签有5种,文本属性标签有3种,表格属性标签有6种。
- 高标注质量:通过人工筛选、智能标注、人工标注、全专家质量检查和大模型质量检查,数据质量较高。
- 评估代码套件:设计了端到端的评估和单模块评估代码,以确保评估的公平性和准确性。评估代码套件可在 OmniDocBench 找到。
更新
- [2024/12/10] 修复了部分样本的高度和宽度字段。此修复仅影响页面级别的高度和宽度字段,不影响其他标注的正确性。
- [2024/12/04] 发布了OmniDocBench评估数据集。
数据集介绍
评估集包含981个PDF页面,涵盖9种文档类型、4种布局类型和3种语言类型。OmniDocBench具有丰富的标注,包括15种块级标注(文本段落、标题、表格等)和4种跨级标注(文本行、内联公式、上标/下标等)。所有与文本相关的标注框都包含文本识别标注,公式包含LaTeX标注,表格包含LaTeX和HTML标注。OmniDocBench还提供了文档组件的阅读顺序标注。此外,还包括页面和块级别的各种属性标签,页面属性标签有5种,文本属性标签有3种,表格属性标签有6种。
数据集格式
数据集格式为JSON,结构和字段解释如下:
json
[{
"layout_dets": [ // 页面元素列表
{
"category_type": "text_block", // 类别名称
"poly": [
136.0, // 位置信息,左上、右上、右下、左下角的坐标 (x,y)
781.0,
340.0,
781.0,
340.0,
806.0,
136.0,
806.0
],
"ignore": false, // 是否在评估中忽略
"order": 0, // 阅读顺序
"anno_id": 0, // 特殊标注ID,每个布局框唯一
"text": "xxx", // 可选字段,文本OCR结果写在这里
"latex": "$xxx$", // 可选字段,公式和表格的LaTeX写在这里
"html": "xxx", // 可选字段,表格的HTML写在这里
"attribute" {"xxx": "xxx"}, // 布局的分类属性,详细如下
"line_with_spans:": [ // 跨级标注框
{
"category_type": "text_span",
"poly": [...],
"ignore": false,
"text": "xxx",
"latex": "$xxx$",
},
...
],
"merge_list": [ // 仅在具有合并关系的标注框中存在,合并逻辑取决于是否存在单行换行分隔的段落,如列表类型
{
"category_type": "text_block",
"poly": [...],
... // 与块级标注相同的字段
"line_with_spans": [...]
...
},
...
]
...
],
"page_info": {
"page_no": 0, // 页码
"height": 1684, // 页面高度
"width": 1200, // 页面宽度
"image_path": "xx/xx/", // 标注页面的文件名
"page_attribute": {"xxx": "xxx"} // 页面属性标签
},
"extra": {
"relation": [ // 相关标注
{
"source_anno_id": 1,
"target_anno_id": 2,
"relation": "parent_son" // 图/表与其对应标题/脚注类别之间的关系标签
},
{
"source_anno_id": 5,
"target_anno_id": 6,
"relation_type": "truncated" // 由于布局原因导致的段落截断关系标签,将在评估中作为一段连接和评估
},
]
}
},
...
]
评估类别
评估类别包括:
块级标注框
title # 标题 text_block # 段落级纯文本 figure, # 图类型 figure_caption, # 图描述/标题 figure_footnote, # 图注释 table, # 表格主体 table_caption, # 表格描述/标题 table_footnote, # 表格注释 equation_isolated, # 显示公式 equation_caption, # 公式编号 header # 页眉 footer # 页脚 page_number # 页码 page_footnote # 页注释 abandon, # 其他丢弃内容(例如页面中间的无关信息) code_txt, # 代码块 code_txt_caption, # 代码块描述 reference, # 参考文献
跨级标注框
text_span # 跨级纯文本 equation_ignore, # 忽略的公式 equation_inline, # 内联公式 footnote_mark, # 文档上标/下标
属性标签
页面分类属性包括:
data_source: #PDF类型分类 academic_literature # 学术文献 PPT2PDF # PPT转PDF book # 黑白书籍和教科书 colorful_textbook # 彩色教科书,包含图像 exam_paper # 考试试卷 note # 手写笔记 magazine # 杂志 research_report # 研究报告和财务报告 newspaper # 报纸
language: #语言类型 en # 英语 simplified_chinese # 简体中文 en_ch_mixed # 英中混合
layout: #页面布局类型 single_column # 单列 double_column # 双列 three_column # 三列 1andmore_column # 一列混合多列,常见于文献 other_layout # 其他布局
watermark: # 是否包含水印
true
false
fuzzy_scan: # 是否模糊扫描
true
false
colorful_backgroud: # 是否包含彩色背景,待识别的内容有超过两种背景颜色
true
false
块级属性 - 表格相关属性:
table_layout: # 表格方向 vertical # 垂直表格 horizontal # 水平表格
with_span: # 合并单元格 False True
line: # 表格边框 full_line # 全边框 less_line # 部分边框 fewer_line # 三线边框 wireless_line # 无边框
language: # 表格语言 table_en # 英语表格 table_simplified_chinese # 简体中文表格 table_en_ch_mixed # 英中混合表格
include_equation: # 表格是否包含公式 False True
include_backgroud: # 表格是否包含背景颜色 False True
table_vertical # 表格是否旋转90或270度 False True
块级属性 - 文本段落相关属性:
text_language: # 文本语言 text_en # 英语 text_simplified_chinese # 简体中文 text_en_ch_mixed # 英中混合
text_background: # 文本背景颜色 white # 默认值,白色背景 single_colored # 单背景颜色,非白色 multi_colored # 多背景颜色
text_rotate: # 段落内文本旋转分类 normal # 默认值,水平文本,无旋转 rotate90 # 旋转角度,顺时针90度 rotate180 # 顺时针180度 rotate270 # 顺时针270度 horizontal # 文本正常但布局垂直
块级属性 - 公式相关属性:
formula_type: # 公式类型 print # 打印 handwriting # 手写




