M³-Bench

Name: M³-Bench
Creator: 中山大学深圳校区; 鹏城实验室; 清华大学深圳国际研究生院; 上海交通大学; 寅望智能科技有限公司; 华为2012实验室
Published: 2026-02-13 20:56:31
License: 暂无描述

arXiv2026-02-13 更新2026-02-17 收录

下载链接：

https://github.com/Nieysh/RADAR

下载链接

链接失效反馈

官方服务：

资源简介：

M³-Bench是由中山大学等机构联合构建的大规模多模态评测基准，包含15,894个样本，旨在零样本条件下系统评估预训练模型的感知与推理能力。该数据集通过整合权威基准和新增专项数据，覆盖自然/文化概念识别、空间/数学/物理推理及跨学科视觉问答等7类核心任务。数据来源于现有通用与领域数据集的重构及针对性补充，采用双策略构建方法以弥合评估缺口。其核心应用是诊断多模态预训练模型的能力瓶颈，为感知-推理能力不对称发展现象研究提供量化工具。

M³-Bench is a large-scale multimodal evaluation benchmark jointly developed by Sun Yat-sen University and other institutions, consisting of 15,894 samples. It is designed to systematically evaluate the perception and reasoning capabilities of pre-trained models under zero-shot settings. This benchmark integrates authoritative existing benchmarks and newly added specialized datasets, covering seven core tasks including natural and cultural concept recognition, spatial, mathematical, physical reasoning, and cross-disciplinary visual question answering. The dataset is constructed through the reconstruction of existing general and domain-specific datasets and targeted supplementary data collection, employing a dual-strategy construction approach to bridge existing evaluation gaps. Its core applications include diagnosing capability bottlenecks of multimodal pre-trained models and providing quantitative tools for research on the asymmetric development of perception and reasoning abilities.

提供机构：

中山大学深圳校区; 鹏城实验室; 清华大学深圳国际研究生院; 上海交通大学; 寅望智能科技有限公司; 华为2012实验室

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在构建M³-Bench数据集时，研究团队采用了一种双轨策略，旨在为多模态大语言模型的预训练阶段提供全面且精准的评估基准。首先，通过系统性地整合并重新格式化现有的通用与领域权威基准数据集，如MMBench、MathVista、SeePhys和MMMU-Pro，将其统一为支持零样本评估的多选题格式，从而继承其多样性与专业性，同时降低对模型指令遵循能力的要求。其次，为了填补现有基准在视觉概念广度与空间推理任务深度上的关键空白，团队从维基百科精心爬取了涵盖动物、植物、名人和景点四大类别的图像与描述，并基于网络图像生成了全新的空间推理任务，通过人工校验确保数据质量。最终，数据集汇集了超过15,894个样本，覆盖感知与推理两大核心能力的七个任务类别。

特点

M³-Bench数据集的核心特点在于其专为预训练多模态大语言模型设计的评估导向。该数据集规模宏大，样本量超过15K，有效降低了评估中的随机误差风险，确保了统计可靠性。其任务设计全面覆盖了感知与推理两大维度：感知能力细分为自然概念识别、文化概念识别和通用视觉问答；推理能力则囊括了空间推理、数学推理、物理推理及多学科视觉问答。尤为重要的是，数据集通过统一的单选题格式与软判别分数（SDS）度量标准相结合，实现了无需微调与自回归解码的零样本评估，能够稳定、精细地追踪模型在预训练过程中多维能力的渐进发展，从而精准揭示模型能力的瓶颈与不对称发展模式。

使用方法

M³-Bench数据集的使用旨在对预训练阶段的多模态大语言模型进行零样本能力诊断。评估时，模型接收图像和问题作为输入，其词汇表被限制在预设的候选答案集合内。通过计算模型对正确答案与干扰项在词元级别对数概率上的平均差异，并应用软判别分数（SDS）进行归一化处理，从而量化模型对正确答案的相对偏好程度，而非依赖二元正确性判断。这种评估方式绕过了对模型指令遵循能力和昂贵自回归生成过程的依赖，直接衡量其预训练获得的核心感知与推理能力。研究人员可利用该基准全面评估不同模型架构、数据规模及预训练策略下各项能力的表现，进而识别能力发展的不对称性，为针对性的模型优化提供数据驱动的洞见。

背景与挑战

背景概述

多模态大语言模型（MLLM）的预训练阶段是构建其感知与推理能力的核心基础，然而，缺乏高效且针对性的评估框架阻碍了对模型能力瓶颈的诊断。在此背景下，中山大学、华为等机构的研究团队于2024年提出了M³-Bench数据集，作为RADAR评估框架的关键组成部分。该数据集旨在以零样本方式，全面评估预训练MLLM在无需指令跟随与额外微调下的核心能力，其核心研究问题是揭示模型在预训练阶段感知与推理能力的不对称发展规律。M³-Bench通过系统整合现有权威基准并精心收集新数据，构建了超过1.5万个样本的大规模评测集，为深入理解MLLM预训练的内在机制提供了重要工具，对推动多模态基础模型的定向优化与高效发展具有显著影响力。

当前挑战

M³-Bench致力于解决的领域挑战在于高效、精准地评估预训练多模态大语言模型的核心能力，特别是解耦地量化其感知与推理能力的发展瓶颈。传统评估方法依赖下游任务微调或指令跟随，混淆了基础能力获取与后续优化，且通用指标无法区分多维能力。在构建过程中，团队面临多重挑战：首先，需将现有各类基准（如MMBench、MathVista）统一转化为支持零样本评估的标准化格式，同时避免引入指令跟随需求；其次，为确保评估的可靠性与区分度，需大规模收集涵盖自然概念、文化概念及空间关系的新数据，并克服网络数据质量参差、标注一致性维护等难题；最后，设计评估范式时必须确保其与预训练目标对齐，避免因评测任务过于专业化或场景不匹配而导致评估失效。

常用场景

经典使用场景

在视觉语言模型预训练领域，M³-Bench作为诊断工具，其经典使用场景在于对预训练多模态大语言模型进行零样本能力评估。该数据集通过整合权威基准并精心构建新样本，形成超过1.5万个测试样本，覆盖感知与推理两大核心能力维度。研究者无需进行繁琐的监督微调或自回归解码，即可直接量化模型在自然概念识别、文化概念理解、空间关系推断、数学物理推理等七个任务类别上的表现，为模型能力瓶颈的精准定位提供了高效评估框架。

实际应用

在实际应用层面，M³-Bench为模型研发团队提供了高效的预训练质量监控与策略优化工具。通过该数据集，工程师能够在大规模预训练过程中持续跟踪不同能力维度的进展曲线，识别数据规模、模型参数量与训练策略对感知和推理能力影响的差异性。这种能力中心的评估视角指导了针对性干预措施，例如调整数据混合比例或优化模型架构，从而在资源有限条件下更高效地提升模型整体性能，加速下一代多模态基础模型的迭代与部署。

衍生相关工作

围绕M³-Bench衍生的经典工作主要体现在多模态评估范式的演进与能力分析框架的深化。其核心方法论启发了后续研究对预训练阶段能力解耦评估的重视，促进了如RADAR评估框架的广泛应用。相关研究进一步探索了感知与推理能力在不同数据分布、模型规模下的缩放规律，揭示了轻量级对齐训练与大规模开放预训练对能力发展的差异化影响。这些工作共同推动了多模态模型评估从综合性测试向诊断性分析的转变，为构建更平衡、更强大的视觉语言模型奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集