BMMR

Name: BMMR
Creator: 复旦大学, 上海人工智能实验室, 哈尔滨工业大学, 华东师范大学, 牛津大学, 悉尼大学, 亿幕数据
Published: 2025-07-08 13:05:04
License: 暂无描述

arXiv2025-07-08 更新2025-07-09 收录

下载链接：

https://bmmr.pages.dev/

下载链接

链接失效反馈

官方服务：

资源简介：

BMMR 是一个大规模的双语（英文和中文）、多模态、跨学科推理数据集，包含 110,000 个大学水平的问答实例，覆盖了联合国教科文组织定义的 300 个子领域，涵盖多选、填空和开放式问答等多种格式，并来源于书籍、考试和测验等数字和印刷媒体。所有数据都通过人工审查和过滤框架进行筛选，每个实例都与高质量的推理路径配对。数据集分为两部分：BMMR-Eval 用于全面评估 LMMs 在多个学科中的知识和推理能力；BMMR-Train 用于支持进一步的研究和开发。BMMR 数据集旨在解决现有基准在学科多样性、问题复杂性、推理深度和语言覆盖范围之间的平衡不足的问题，并支持开源社区的研究和开发。

BMMR is a large-scale bilingual (English and Chinese), multimodal, interdisciplinary reasoning dataset containing 110,000 college-level question-answering instances. It covers 300 subfields defined by UNESCO, supports multiple question formats including multiple-choice, fill-in-the-blank, and open-ended question types, and is sourced from digital and print media such as books, exams, and quizzes. All data are screened via a manual review and filtering framework, with each instance paired with high-quality reasoning paths. The dataset is split into two subsets: BMMR-Eval, which is used to comprehensively evaluate the knowledge and reasoning capabilities of large multimodal models (LMMs) across diverse disciplines, and BMMR-Train, which supports further research and development. The BMMR dataset aims to address the insufficient balance among disciplinary diversity, question complexity, reasoning depth, and language coverage in existing benchmarks, while supporting research and development within the open-source community.

提供机构：

复旦大学, 上海人工智能实验室, 哈尔滨工业大学, 华东师范大学, 牛津大学, 悉尼大学, 亿幕数据

创建时间：

2025-07-04

原始信息汇总

BMMR: 大规模双语多模态多学科推理数据集

数据集概述

名称: BMMR (Bilingual Multimodal Multi-Discipline Reasoning Dataset)
规模: 110k条数据
语言: 双语（英语和中文）
学科覆盖: 300个UNESCO定义的学科，涵盖8个高层级学科领域
数据来源: 印刷和数字媒体（书籍、考试、测验等）
问题类型: 多选题、填空题、开放式问答
特点:
- 每个实例配有高质量推理路径
- 需要跨模态理解、领域专业知识和高级推理能力
- 通过人工参与的可扩展框架进行筛选和整理

数据集组成

BMMR-Eval:
- 规模: 20,458条
- 用途: 全面评估大型多模态模型（LMMs）在多个学科中的知识和推理能力
BMMR-Train:
- 规模: 88,991条
- 用途: 支持进一步研究和开发，扩展当前数学推理的研究范围

实验发现

即使最先进的模型（如o3和Gemini-2.5-Pro）在BMMR-Eval上仍有显著提升空间
推理模型表现出学科偏差，仅在特定学科上优于LMMs
开源模型仍落后于专有模型
在BMMR-Train上进行微调可以缩小这一差距

错误分析

主要错误类型:
1. 缺乏领域知识（占比最高）
2. 计算和推导错误
3. 推理错误

引用格式

bibtex @misc{xi2025bmmrlargescalebilingualmultimodal, title={BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset}, author={Zhiheng Xi and Guanyu Li and Yutao Fan and Honglin Guo and Yufang Liu and Xiaoran Fan and Jiaqi Liu and Jingchao Ding and Wangmeng Zuo and Zhenfei Yin and Lei Bai and Tao Ji and Tao Gui and Qi Zhang and Xuanjing Huang}, year={2025}, eprint={2507.03483}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.03483}, }

搜集汇总

数据集介绍

构建方式

BMMR数据集的构建采用了多学科、多模态的框架，通过从印刷和数字媒体（如书籍、考试和测验）中收集110k大学水平的问题，覆盖了300个联合国教科文组织定义的学科。所有数据通过人机协作的可扩展框架进行筛选和标注，每个实例均配有高质量推理路径。数据集分为评估集（BMMR-Eval）和训练集（BMMR-Train），分别用于全面评估模型的多学科推理能力和支持进一步研究开发。

特点

BMMR数据集具有双语（中英文）、多模态（文本与图像结合）和多学科（覆盖8大领域300个子领域）的特点。其问题形式多样，包括选择题、填空题和开放式问答，旨在全面测试模型的知识广度和推理深度。此外，数据集还引入了基于过程的验证器（BMMR-Verifier），用于精细评估推理路径的准确性。

使用方法

BMMR数据集的使用方法包括利用BMMR-Eval对大型多模态模型（LMMs）进行跨学科知识和推理能力的评估，以及通过BMMR-Train进行模型微调和进一步研究。用户可以通过提供的代码和资源（如GitHub仓库）访问数据集，并利用BMMR-Verifier对模型的推理过程进行细粒度分析，以识别和改进模型的弱点。

背景与挑战

背景概述

BMMR（Bilingual Multimodal Multi-Discipline Reasoning Dataset）是由复旦大学、上海人工智能实验室、哈尔滨工业大学等机构联合推出的大规模双语多模态多学科推理数据集，发布于2025年。该数据集包含11万道大学水平的问题，涵盖联合国教科文组织定义的300个学科领域，问题形式包括选择题、填空题和开放式问答，数据来源涵盖书籍、考试和测验等多种媒介。BMMR分为评估集（BMMR-Eval）和训练集（BMMR-Train）两部分，旨在全面评估大型多模态模型（LMMs）在多学科知识推理方面的能力，并为开源社区提供研究支持。该数据集的推出填补了当前多模态推理数据集中在学科多样性和推理深度上的空白，对推动通用人工智能（AGI）的发展具有重要意义。

当前挑战

BMMR数据集面临的挑战主要包括两方面：领域问题的挑战和构建过程的挑战。在领域问题方面，BMMR旨在解决多模态模型在多学科复杂推理任务中的评估难题，包括跨模态理解、专业领域知识应用和高级推理能力的综合评估。现有基准测试如MMMU和ScienceQA在学科覆盖和问题复杂度上存在不足，而BMMR通过引入多学科、多难度级别的问题集，为模型评估提供了更全面的标准。在构建过程中，挑战包括：1）数据质量的保证，需通过人工参与的框架对海量数据进行筛选和标注；2）多语言和多模态数据的对齐与整合，确保中英文问题及图像-文本对的高质量匹配；3）推理路径的标注，为每个问题提供详细且准确的解题过程；4）学科分布的平衡，避免数据集中某些学科过度代表而影响评估的公正性。

常用场景

经典使用场景

BMMR数据集作为大规模双语多模态多学科推理数据集，广泛应用于评估和开发大型多模态模型（LMMs）。其经典使用场景包括模型在跨学科知识理解、复杂推理路径验证以及多语言环境下的表现评估。通过涵盖300个联合国教科文组织定义的学科领域，BMMR为研究者提供了一个全面测试模型在数学、物理、化学等多学科中推理能力的平台。

衍生相关工作

BMMR数据集衍生了一系列重要的研究工作，包括多模态推理模型的优化方法、跨学科知识迁移技术以及过程监督模型的开发。例如，基于BMMR-Train微调的InternVL2.5-78B模型在多个学科上的性能提升了19.07%，验证了数据集对模型优化的有效性。此外，该数据集还启发了BMMR-Verifier等创新工具的开发，为细粒度推理评估设立了新标准。

数据集最近研究