MMLongBench_base_deepeyes_multi_2_iter_1128_v4

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/happy8825/MMLongBench_base_deepeyes_multi_2_iter_1128_v4

下载链接

链接失效反馈

官方服务：

资源简介：

MMLongBench是一个用于评估机器学习模型在处理长文本文档方面的性能的数据集。该数据集包含不同类型的证据来源和不同页面长度的数据集子集，以便评估模型在不同情况下的性能。

创建时间：

2025-11-29

原始信息汇总

MMLongBench 数据集概述

数据集基本信息

数据集名称: MMLongBench_base_deepeyes_multi_2_iter_1128_v4
数据分割: train
样本数量: 1073个样本
数据集大小: 19.37 MB
下载大小: 4.30 MB

性能评估结果

最新评估结果（2025-11-29 07:37 UTC）

平均准确率: 49.35%（基于1072个评分样本）

按证据来源分类的准确率

纯文本: 49.34%（302个样本）
图表: 44.00%（175个样本）
表格: 42.40%（217个样本）
图形: 38.13%（299个样本）
通用文本（布局）: 33.61%（119个样本）

按证据页数分类的准确率

无页面: 66.37%（226个样本）
单页面: 54.19%（489个样本）
多页面: 31.93%（357个样本）

数据结构特征

核心特征

相关页面列表
证据页面列表
评分
文档ID
文档类型
问题
答案
证据来源列表
最终答案

多轮对话处理特征

第一轮检索结果（包含文档摘要和相关页面）
第一轮LLM原始输出
记忆输入输出
第二轮VLM提示输入
第二轮VLM原始输出
第二轮最终答案
第二轮响应类型

视觉语言模型交互特征

多轮VLM输入图像引用（最多30个图像引用）
VLM输入消息（包含引用、文本和类型）
VLM提示
VLM原始输出
缩放框坐标
缩放页面索引

搜集汇总

数据集介绍

构建方式

在长文档多模态理解领域，MMLongBench_base_deepeyes_multi_2_iter_1128_v4数据集通过结构化流程构建，涵盖纯文本、图表、图像和布局等多种证据源。数据收集过程采用多轮交互机制，首轮利用大型语言模型进行文档摘要与相关页面检索，次轮结合视觉语言模型对图像证据进行细粒度解析。构建策略注重证据页面长度的多样性，包含无页面、单页面及多页面场景，确保数据在复杂文档理解任务中的全面性。

特点

该数据集以多模态长文档问答为核心特征，整合了纯文本、图表、图像与布局等异构证据源，形成丰富的语义层次。其显著特点在于按证据页面长度划分的评估维度，无页面场景准确率达66.37%，而多页面场景则降至31.93%，直观呈现文档复杂度与模型性能的负相关关系。数据样本涵盖1073个训练实例，每个实例包含完整的交互轨迹记录，为研究多轮推理机制提供详实的实验基础。

使用方法

研究人员可通过加载标准数据分割直接使用该数据集，训练集路径规范为data/train-*格式。典型应用流程包括解析多轮对话结构，其中首轮聚焦文本证据检索与摘要生成，次轮则调用视觉语言模型处理图像证据。使用时应特别注意证据源类型的差异化处理策略，针对图表类证据需采用专门的解析模块，而布局类文本则要求结合视觉空间理解能力，最终通过综合多模态信息生成准确答案。

背景与挑战

背景概述

多模态长文档理解作为人工智能领域的前沿研究方向，旨在解决机器对复杂文档结构的深度解析难题。MMLongBench_base_deepeyes_multi_2_iter_1128_v4数据集由研究团队于2024年构建，聚焦于融合文本、图表、图像等异构信息的综合推理任务。该数据集通过结构化标注与多轮对话机制，推动视觉语言模型在学术文献、技术报告等长文档场景中的认知能力突破，为跨模态知识抽取与逻辑推理奠定基准框架。

当前挑战

该数据集面临多模态对齐的固有挑战：视觉元素（如图表准确率38.13%）与文本语义的协同理解显著落后于纯文本任务（49.34%）。多页文档场景中模型性能骤降至31.93%，揭示长程依赖与跨页推理的技术瓶颈。构建过程中需攻克异构数据标准化难题，包括布局文本的语义重构（33.61%准确率）及多轮对话中视觉定位与文本推理的时序对齐，这些障碍共同制约着端到端多模态理解系统的实现。

常用场景

经典使用场景

在视觉语言模型评估领域，MMLongBench_base_deepeyes_multi_2_iter_1128_v4数据集作为多模态长文档理解的重要基准，其经典应用场景聚焦于测试模型对混合格式文档的深度解析能力。该数据集通过整合纯文本、图表、图像及结构化布局等多元证据源，模拟真实学术文献的复杂构成，为评估模型在跨页信息关联和长上下文理解方面的表现提供了标准化测试环境。

衍生相关工作

基于该数据集评估范式衍生的经典研究包括多模态检索增强生成架构的优化、长文档视觉语言模型的预训练策略改进等。相关工作通过借鉴其分层评估指标，开发了针对图表理解的专用模块和跨页注意力机制，推动了文档智能分析技术从单页理解向全书境推理的范式转变，为构建下一代多模态大语言模型奠定了理论基础。

数据集最近研究