BMMR

github2025-07-08 更新2025-07-09 收录

下载链接：

https://github.com/WooooDyy/BMMR

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了BMMR，一个大规模的双语、多模态、多学科推理数据集，旨在为社区开发和评估大型多模态模型（LMMs）提供支持。BMMR包含110k个大学水平的问题，涵盖300个联合国教科文组织定义的学科，问题形式多样，包括选择题、填空题和开放式问答，数据来源于书籍、考试和测验等印刷和数字媒体。所有数据都通过人工参与和可扩展的框架进行筛选和整理，每个实例都配有高质量的推理路径。数据集分为两部分：BMMR-Eval包含20,458个高质量实例，用于全面评估LMMs在中文和英文中跨多个学科的知识和推理能力；BMMR-Train包含88,991个实例，支持进一步的研究和开发，将当前的研究重点从数学推理扩展到多样化的学科和领域。此外，我们还提出了基于过程的多学科验证器（即BMMR-Verifier），用于准确和细粒度地评估推理路径。

We introduce BMMR, a large-scale bilingual, multimodal, and multidisciplinary reasoning dataset designed to support the community in developing and evaluating Large Multimodal Models (LMMs). BMMR contains 110k college-level questions spanning 300 disciplines defined by the United Nations Educational, Scientific and Cultural Organization (UNESCO). The questions come in diverse formats, including multiple-choice, fill-in-the-blank, and open-ended questions, and the dataset is sourced from printed and digital media such as books, exams, and quizzes. All data is screened and curated through a human-in-the-loop and scalable framework, with each instance paired with high-quality reasoning chains. The dataset is split into two subsets: BMMR-Eval consists of 20,458 high-quality instances, which are used to comprehensively evaluate the knowledge and reasoning capabilities of LMMs across multiple disciplines in both Chinese and English; BMMR-Train contains 88,991 instances that support further research and development, extending the current research focus from mathematical reasoning to diverse disciplines and domains. In addition, we propose a process-based multidisciplinary verifier (namely BMMR-Verifier) for accurate and fine-grained evaluation of reasoning chains.

创建时间：

2025-07-02

原始信息汇总

BMMR数据集概述

基本信息

名称：BMMR (Bilingual Multimodal Multi-Discipline Reasoning Dataset)
主页：https://bmmr.pages.dev/
数据集地址：https://huggingface.co/datasets/guanyu615/BMMR
论文地址：http://arxiv.org/abs/2507.03483
排行榜：https://huggingface.co/spaces/guanyu615/BMMR_leaderboard

数据集简介

规模：110k大学级别问题
覆盖学科：300个UNESCO定义的学科
语言：双语（中文和英文）
问题类型：选择题、填空题、开放式问答
数据来源：书籍、考试、测验等印刷和数字媒体

数据集组成

BMMR-Eval：20,458个高质量实例，用于全面评估大型多模态模型（LMMs）的知识和推理能力
BMMR-Train：88,991个实例，支持进一步研究和开发

特点

每个实例都配有高质量推理路径
通过人机交互和可扩展框架进行筛选和整理
提出基于过程的多学科验证器（BMMR-Verifier），用于准确和细粒度评估推理路径

实验结果

即使最先进的模型（如o3和Gemini-2.5-Pro）在BMMR-Eval上仍有很大提升空间
推理模型表现出学科偏见，仅在特定学科上优于LMMs
开源模型仍落后于专有模型
在BMMR-Train上进行微调可以缩小这一差距

使用方式

准备：下载测试集并放入./data/目录
安装：运行pip install -r requirements.txt
运行：部署模型后更新src/config.json文件，运行bash src/eval.sh

联系方式

Zhiheng Xi：zhxi22@m.fudan.edu.cn

引用

bibtex @misc{xi2025bmmrlargescalebilingualmultimodal, title={BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset}, author={Zhiheng Xi and Guanyu Li and Yutao Fan and Honglin Guo and Yufang Liu and Xiaoran Fan and Jiaqi Liu and Jingchao Ding and Wangmeng Zuo and Zhenfei Yin and Lei Bai and Tao Ji and Tao Gui and Qi Zhang and Xuanjing Huang}, year={2025}, eprint={2507.03483}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2507.03483}, }

致谢

参考了MMMU构建本仓库

搜集汇总

数据集介绍

构建方式

在跨学科多模态推理研究领域，BMMR数据集通过严谨的构建流程确立了其学术价值。研究团队采用人机协同的筛选框架，从书籍、考试和测验等印刷与数字媒体中精选了11万道大学水平题目，覆盖联合国教科文组织定义的300个学科领域。数据构建过程中，每种题型（包括选择题、填空题和开放式问答题）都经过严格的质量控制，并配有精心设计的推理路径标注。数据集划分为含20,458条高质量实例的BMMR-Eval评估集和含88,991条实例的BMMR-Train训练集，为多学科推理研究提供了结构化数据支持。

使用方法

研究者可通过HuggingFace平台获取该数据集的完整版本。使用流程包括三个关键环节：首先配置Python环境并安装依赖库，随后下载测试集至指定目录；模型部署阶段支持通过vLLM或LMDeploy框架实现；最终运行评估脚本时，需在配置文件中调整API端点、密钥等参数。评估体系不仅支持传统答案准确性度量，更能通过BMMR-Verifier对推理链进行细粒度分析，为改进多模态模型的跨学科推理能力提供诊断工具。

背景与挑战

背景概述

BMMR数据集由复旦大学等机构的研究团队于2025年推出，旨在推动大规模多模态模型（LMMs）在多学科推理领域的发展。该数据集包含11万道大学水平的双语题目，涵盖300个联合国教科文组织定义的学科，题型多样，包括选择题、填空题和开放式问答题。数据来源广泛，包括书籍、考试和在线测验，并通过人机协同的框架进行严格筛选和标注。BMMR分为评估集（BMMR-Eval）和训练集（BMMR-Train），分别用于全面评估模型性能和支持后续研究。该数据集的发布为多模态模型的跨学科推理能力提供了重要的基准测试工具，填补了该领域的研究空白。

当前挑战

BMMR数据集面临的挑战主要包括两方面：其一，在领域问题层面，多模态模型在多学科推理中表现不佳，存在显著的学科偏差，即使在特定学科上表现优异的模型也难以覆盖所有领域；其二，在数据集构建过程中，如何确保跨学科题目的代表性和平衡性是一大难题，同时高质量推理路径的标注需要大量专业知识和人力投入。此外，数据集的规模庞大且来源多样，对数据的清洗、去重和格式统一提出了较高要求。这些挑战为后续研究提供了改进方向，也凸显了多模态模型在多学科推理任务中的局限性。

常用场景

经典使用场景

BMMR数据集作为一项大规模双语多模态多学科推理数据集，广泛应用于评估和开发大型多模态模型（LMMs）。其经典使用场景包括模型在跨学科知识推理能力上的测试，特别是在处理多种题型（如选择题、填空题和开放式问答）时的表现。通过覆盖300个联合国教科文组织定义的学科领域，BMMR为研究者提供了一个全面的基准，用于验证模型在复杂多模态任务中的泛化能力。

解决学术问题

BMMR数据集解决了当前多模态模型在跨学科推理中的局限性问题。通过提供高质量的推理路径和多学科覆盖，该数据集帮助研究者识别模型在特定学科上的偏差，并评估其整体推理能力。此外，BMMR还支持对开源模型和专有模型之间的性能差距进行量化分析，为模型优化提供了明确的方向。

实际应用

在实际应用中，BMMR数据集被广泛用于教育技术、智能辅导系统和自动化考试评估等领域。其双语特性使其能够支持中英文环境下的多模态任务，例如在在线教育平台中生成个性化的学习内容或评估学生的跨学科知识掌握情况。数据集的高质量标注和多样性使其成为开发智能教育工具的重要资源。

数据集最近研究