GDI-Bench

Name: GDI-Bench
Creator: 上海人工智能实验室
Published: 2025-04-30 23:46:46
License: 暂无描述

arXiv2025-04-30 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.00063v1

下载链接

链接失效反馈

官方服务：

资源简介：

GDI-Bench是一个通用的文档智能基准，它包含1.9k张图像，涵盖9个关键场景和19个文档特定任务。该基准通过解耦视觉复杂性和推理复杂性，构建了分级的任务，允许按难度评估性能，有助于模型弱点识别和优化指导。GDI-Bench的数据主要来源于Omnidocbench和内部收集的多种文档类型，包括考试试卷、报告、报纸等。数据构建过程包括图像裁剪、任务生成和人工验证等步骤，以确保数据质量和多样性。GDI-Bench旨在解决文档处理领域模型评估和优化的问题，并支持多种文档理解模型的评估。

提供机构：

上海人工智能实验室

创建时间：

2025-04-30

搜集汇总

数据集介绍

构建方式

GDI-Bench数据集的构建采用了多源数据整合与复杂性解耦策略。首先从Omnidocbench和内部文档库中筛选了9个领域的文档图像，通过裁剪单布局子图像形成V0原始图像集。基于端到端编辑距离评分，将视觉复杂性划分为V0（纯文本）、V1（正式表示）和V2（解释性表示）三个层级。任务构建方面，R0任务采用原始标注或MinerU生成的Markdown表示，R1和R2任务则通过GPT-4o生成问答对，并辅以人工设计的规则任务。最终由博士级标注团队进行质量验证，形成包含2,989个测试案例的基准数据集。

特点

该数据集的核心特点体现在三维度评估体系的设计上。通过独创的视觉复杂度（V0-V2）与推理复杂度（R0-R2）解耦机制，建立了可量化的难度分级标准。覆盖学术论文、财务报表等9大场景下的19类文档任务，包含1.9k张图像样本，实现了跨域多任务的系统性评估。特别设计的层级化任务结构（从基础OCR到跨模态推理）能精准定位模型弱点，其细粒度难度划分特性在当前文档智能基准中具有独特性。

使用方法

使用该数据集需遵循其分维度评估协议。在视觉维度，V0级测试OCR基础能力，V1/V2级评估复杂布局理解；在推理维度，R0考核结构化提取，R1验证信息抽取，R2测试深度推理。评估时需采用特定指标：R0任务用平均编辑距离（AED），R1采用归一化Levenshtein相似度（ANLS），R2主要使用准确率。支持对MLLMs、OCR+LLM系统和文档解析工具的三类评估，通过解耦分析可明确区分模型在视觉识别与逻辑推理方面的能力差异。

背景与挑战

背景概述

GDI-Bench是由上海人工智能实验室、浙江大学、香港中文大学（深圳）及复旦大学等机构的研究团队于2025年联合提出的通用文档智能基准测试。该数据集旨在解决多模态大语言模型（MLLMs）在文档领域面临的跨域多尺度理解与推理挑战，包含1.9k张图像、覆盖9类核心场景和19项文档专属任务。其创新性体现在首次将视觉复杂度（V0-V2）与推理复杂度（R0-R2）解耦，并建立难度分级机制，为模型弱点定位和系统优化提供了结构化评估框架。该基准的推出填补了现有文档评测体系在细粒度难度分层和跨域任务多样性方面的空白，对推动文档智能向通用化发展具有重要意义。

当前挑战

GDI-Bench需应对双重挑战：在领域问题层面，文档智能需同步解决复杂版面解析（如多栏布局、图表混排）、跨模态对齐（视觉-文本语义关联）及深层逻辑推理（如表格数据推导）等难题；在构建过程中，需克服数据标注复杂性（如V2级文档的ROI区域标注）、任务设计正交性（确保视觉与推理维度解耦）以及评估指标适配性（针对R0-R2任务分别采用AED/ANLS/Accuracy等差异化指标）。此外，基准验证发现现有模型存在显著能力断层，如GPT-4o虽擅长推理但视觉识别薄弱，凸显了文档智能领域模型优化的方向性挑战。

常用场景

经典使用场景

在文档智能领域，GDI-Bench作为综合性评估基准，其经典应用场景主要体现在对多模态大语言模型（MLLMs）的细粒度能力诊断。通过解构视觉复杂度（V0-V2）与推理复杂度（R0-R2）的二维评估体系，该数据集支持对学术论文、财务报表、考试试卷等9类跨域文档的19项任务进行分层测试。例如，在V2级视觉复杂度的教科书图像上执行R2级推理任务时，可精准暴露模型在跨模态逻辑推理中的薄弱环节。

解决学术问题

GDI-Bench有效解决了文档智能领域三个关键学术问题：其一，通过视觉-推理解耦机制首次实现了模型能力缺陷的精准定位，弥补了传统评估体系难以区分感知与认知错误的缺陷；其二，建立的难度分级标准（如V2/R2）为模型优化提供了明确的进阶路径；其三，其涵盖的1.9k图像样本与多维评估指标（AED/ANLS/Accuracy）构建了文档理解任务的量化研究框架，推动了该领域从经验驱动向数据驱动的范式转变。

衍生相关工作

该数据集催生了多项创新性研究：Layer-wise Adaptive Freeze-Tuning（LW-AFT）方法通过参数冻结策略缓解微调过程中的灾难性遗忘问题；GDI模型在OmniDocBench等基准上达到SOTA性能；后续研究如VisualSimpleQA借鉴其解耦思想，构建了视觉问答任务的二维评估体系。这些工作共同推动了文档理解模型从专用系统向通用智能的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集