MMCR

Name: MMCR
Creator: 上海交通大学
Published: 2025-03-21 13:02:20
License: 暂无描述

arXiv2025-03-21 更新2025-03-25 收录

下载链接：

https://github.com/yangtian6781/MMCR

下载链接

链接失效反馈

官方服务：

资源简介：

MMCR数据集是由上海交通大学团队创建的高难度基准，旨在评估视觉语言模型在科学论文中跨源信息推理的能力。该数据集包含276个高质量的问题，由人类专家精心标注，跨越7个学科和10种任务类型。数据集的问题设计紧密结合科学论文的特点，涵盖了图表、表格、文本、伪代码、公式等多种信息源，并通过严格的筛选和质量控制确保每个问题都与跨源线索紧密相关，不能通过其他来源的信息回答。该数据集的应用领域主要在于推动视觉语言模型在科学论文理解方面的性能提升，解决科学论文自动化理解中的关键挑战。

The MMCR dataset is a challenging benchmark developed by the team from Shanghai Jiao Tong University, designed to evaluate the cross-source information reasoning capabilities of vision-language models (VLMs) when processing scientific papers. This dataset contains 276 high-quality questions, meticulously annotated by human experts, covering 7 academic disciplines and 10 task types. The questions in the dataset are closely aligned with the characteristics of scientific papers, encompassing diverse information sources such as charts, tables, text, pseudocode, and formulas. Through strict screening and quality control measures, each question is ensured to be closely linked to cross-source clues and cannot be answered using information from a single source. The primary application of this dataset is to advance the performance enhancement of vision-language models in scientific paper understanding, and to address key challenges in automated scientific paper comprehension.

提供机构：

上海交通大学

创建时间：

2025-03-21

搜集汇总

数据集介绍

构建方式

MMCR数据集的构建过程体现了严谨的科学方法论与多学科交叉的复杂性。研究团队从Arxiv和OpenReview平台精选了31篇平均19页的科学论文，覆盖7个专业领域。通过专家标注团队进行两轮半自动化质量控制：首先利用Llama-3.3-70B和Qwen2.5-72B大语言模型过滤可凭常识回答的问题，再通过人工交叉校验确保每个问题必须依赖跨源线索解答。最终形成的276个问题被精细划分为10种推理类型，每种问题配备5个干扰项，采用循环评估机制降低随机猜测概率。

特点

该数据集的核心价值在于其突破性的跨源推理评估框架。相比传统单模态文档理解基准，MMCR创新性地设计了10类需要整合文本、图表、公式、伪代码等多源信息的问题，其中22.46%的问题涉及表格理解，19.2%需要图文交叉推理。数据统计显示，问题证据平均分布在2.5个页面，最大跨度达35页，全面挑战模型的长文档理解和信息整合能力。实验证明即使是顶尖模型GPT-4o在多重表格理解任务中也仅获得20%准确率。

使用方法

使用MMCR进行模型评估需遵循标准化实验协议。研究者需将PDF论文转换为144DPI的JPEG图像序列，支持端到端的视觉输入处理。评估过程包含三阶段：自由响应生成阶段不预设提示约束，启发式规则提取阶段从模型输出中解析答案，最后采用精确匹配计算得分。特别设计的循环评估机制会对选项进行五次轮换排列，仅当模型在所有轮次均答对时才判定正确。该协议有效区分了真实推理能力与随机猜测行为，如实验显示MiniCPM-o 2.6模型在循环评估下性能下降至常规评估的36%。

背景与挑战

背景概述

MMCR（Multi-Modality Cross-source Reasoning）是由上海交通大学等机构的研究团队于2025年推出的科学论文跨源推理基准数据集。该数据集旨在评估视觉语言模型（VLMs）在科学论文多模态信息中的跨源推理能力，填补了科学论文理解领域高质量专业基准的空白。数据集包含来自7个学科的31篇科学论文，平均每篇19页，人工标注了276个高质量问题，涵盖图表理解、文本推理、公式解析等10种任务类型。MMCR的构建采用了严格的半自动质量控制流程，结合大语言模型过滤和人工交叉校验，确保问题的专业性和跨源依赖性。该数据集的发布为衡量VLMs在复杂科学内容理解方面的能力提供了重要工具，推动了通用人工智能在学术文献解析领域的发展。

当前挑战

MMCR数据集面临的核心挑战体现在两个方面：领域问题方面，科学论文中数学公式、伪代码和专业图表等元素的交叉线索理解极具挑战性，现有VLMs在跨源推理任务中表现欠佳，即使是性能最佳的GPT-4o模型整体准确率仅为48.55%；构建过程方面，科学论文的高度专业化使得标注工作异常困难，需要领域专家参与，且必须确保问题与跨源线索紧密关联，每篇论文需生成至少8个不重复的问题类型，每个问题需提供5个选项，这种严苛要求导致数据筛选淘汰率高。此外，多页面文档的高分辨率图像处理（平均1573×1210像素）对模型的视觉感知能力提出了极高要求，实验中27.5%的错误源于感知缺陷，凸显了当前模型在处理复杂科学文档时的局限性。

常用场景

经典使用场景

MMCR数据集作为多模态跨源推理的基准测试工具，在评估视觉语言模型（VLMs）处理科学论文中的复杂信息整合能力方面具有显著价值。其经典使用场景包括模型在跨页、跨图表及跨文本公式等异构信息源上的推理性能测试，尤其擅长揭示模型在整合数学公式、伪代码和专业图表等科学内容时的瓶颈。通过276道人工标注的高质量问题，覆盖7大学科领域和10类任务类型，该数据集为研究者提供了系统评估模型在多模态科学文献理解中细粒度推理能力的标准化平台。

实际应用

在实际应用层面，MMCR对提升学术文献智能处理系统具有深远意义。其构建方法可直接应用于科研助手开发，支持自动文献综述、跨模态知识检索等场景。实验发现的感知错误（27.5%）和证据提取错误（25.7%）为优化医疗影像分析、金融报告解析等专业文档处理系统提供了针对性改进路径。此外，数据集验证的思维链（CoT）技术对大模型的增强效应，为构建更可靠的学术问答系统提供了方法论指导。

衍生相关工作

MMCR的发布催生了一系列跨模态推理的创新研究。基于其构建方法论，后续工作如Sci-CQA改进了自动标注流程；在模型架构方面，InternVL2.5等开源模型通过引入跨页注意力机制显著提升了长文档理解能力。该数据集还启发了ChartVLM等专业领域评估基准的开发，推动形成了以‘跨源推理’为核心的多模态能力评估体系。相关成果在ACL、CVPR等顶会中形成专门研讨方向，持续推动文档智能领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集