MMLongBench_image_question_only_deepeyes_concat

Hugging Face2025-11-10 更新2025-11-10 收录

下载链接：

https://huggingface.co/datasets/happy8825/MMLongBench_image_question_only_deepeyes_concat

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多轮问答数据集，包含文档ID、文档类型、问题、答案等信息，以及多轮交互过程中使用的查询、检索结果、模型输出、记忆输出等详细数据。

创建时间：

2025-11-05

原始信息汇总

数据集概述

基本信息

数据集名称: MMLongBench_image_question_only_deepeyes_concat
存储位置: https://huggingface.co/datasets/happy8825/MMLongBench_image_question_only_deepeyes_concat
数据量: 1,073个样本
数据集大小: 42,191,408字节
下载大小: 12,255,282字节
数据格式: 结构化数据

数据结构

核心特征

doc_id: 文档标识符（字符串类型）
doc_type: 文档类型（字符串类型）
question: 问题内容（字符串类型）
answer: 答案内容（字符串类型）
evidence_pages: 证据页码列表（整数列表）
evidence_sources: 证据来源列表（字符串列表）
score: 评分（整数类型）
final_answer: 最终答案（字符串类型）

多轮对话处理特征

第一轮处理

turn1_colqwen_query: 查询内容
turn1_colqwen_retrieval_results: 检索结果
- top_pages: 顶部页码列表
- top_pages_with_scores: 带分数的页码列表
turn1_llm_query_input: 语言模型查询输入
turn1_llm_retrieval_results: 语言模型检索结果
- document_summary: 文档摘要
- relevant_pages: 相关页码列表
turn1_llm_raw_output: 语言模型原始输出
turn1_memory_out: 记忆输出

第二轮处理

turn2_memory_in: 记忆输入
turn2_vlm_prompt_input: 视觉语言模型提示输入
turn2_vlm_raw_output: 视觉语言模型原始输出
turn2_final_answer: 最终答案
turn2_response_type: 响应类型

数据配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

搜集汇总

数据集介绍

构建方式

在多媒体文档理解领域，MMLongBench_image_question_only_deepeyes_concat数据集通过结构化流程构建而成。该过程整合了多轮对话机制，每一轮涉及检索、语言模型处理和视觉语言模型交互，确保数据覆盖复杂查询场景。证据页面和来源被精确标注，支持多模态信息融合，最终形成包含1073个训练样本的标准化集合。

使用方法

使用该数据集时，研究者可基于多轮对话流程进行模型训练与评估，每一轮次的数据如查询输入和检索结果可直接用于模拟真实交互场景。通过解析证据页面和最终答案字段，能够验证模型在多模态文档中的理解精度，同时支持对视觉语言模型输出的细粒度分析，促进跨模态推理技术的发展。

背景与挑战

背景概述

多模态长文本理解作为人工智能领域的前沿方向，旨在融合视觉与语言信息处理复杂文档内容。MMLongBench_image_question_only_deepeyes_concat数据集由DeepEyes研究团队于2023年构建，聚焦于解决多轮对话场景下图文混合文档的深度语义解析问题。该数据集通过结构化记录检索、记忆交互与视觉语言模型的协同推理过程，为跨模态认知计算提供了重要实验基础，显著推动了文档级智能问答系统的技术演进。

当前挑战

构建多模态长文档数据集需应对双重挑战：在领域问题层面，模型需同步处理图像语义抽取与文本逻辑关联，解决跨模态信息对齐与长期依赖建模的复杂性；在技术实现层面，数据标注涉及多轮对话状态追踪与证据源验证，既要保证视觉元素与文本描述的时空一致性，又要克服多跳推理中误差累积对最终答案的影响。

常用场景

经典使用场景

在视觉语言模型评估领域，MMLongBench_image_question_only_deepeyes_concat数据集通过多轮对话机制与图像问题交互，为长文档多模态理解任务提供了标准化测试平台。其典型应用体现在对复杂图文混合文档的渐进式问答场景中，研究者可利用该数据集验证模型在跨模态信息关联、视觉细节捕捉与文本推理融合方面的综合能力。

解决学术问题

该数据集有效解决了多模态长文档理解中的三大核心问题：跨模态语义对齐的评估难题、长序列信息保持的技术瓶颈以及多轮对话中上下文一致性的量化挑战。通过结构化标注的问答对与证据源追溯机制，为学术界提供了可复现的评估基准，显著推进了视觉语言模型在长文档处理领域的理论发展。

实际应用

面向实际应用场景，该数据集支撑的模型能力可广泛应用于智能文档分析系统，如医疗影像报告解读、法律卷宗审查等专业领域。其多轮对话设计特别适用于需要渐进式信息挖掘的工业场景，例如金融报表分析、工程图纸审查等需要结合视觉元素与文本信息的复杂决策流程。

数据集最近研究