CMMMU

arXiv2024-03-18 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2401.11944v2

下载链接

链接失效反馈

官方服务：

资源简介：

CMMMU是一个新的中文大规模多学科多模态理解基准，旨在评估LMMs在需要大学水平学科知识和在汉语语境下进行深思熟虑推理的任务上的表现。

CMMMU is a novel Chinese large-scale multi-disciplinary and multi-modal understanding benchmark, which aims to assess the performance of large multimodal models (LMMs) on tasks that require university-level disciplinary knowledge and deliberate reasoning within the context of the Chinese language.

创建时间：

2024-01-22

搜集汇总

数据集介绍

构建方式

CMMMU的构建遵循严谨的三阶段流程。首先，由标注组织者从符合许可要求的网站或书籍中，为每个学科的每个子领域收集至少20个标注来源。随后，将来源分发给具备本科及以上学历的众包标注员，由他们严格筛选出必须结合图像才能回答、且需要大学水平专业知识的问题，并确保同一知识点的问题数量不超过10个。最后，标注组织者对样本不足的学科进行补充，并通过人工核查与基于GPT-4、Qwen-7B等模型的自动化过滤，剔除低质量及可能存在数据污染的问题，最终汇集了约12,000道题目。

特点

CMMMU作为首个中文大规模多学科多模态理解基准，其核心特点在于对大学级别知识与复杂推理的深度考察。数据集横跨艺术与设计、商业、科学、健康与医学、人文社科及技术与工程六大核心学科，细分为30个科目，并包含多达39种高度异质的图像类型，如乐谱、化学结构、电路图等。题目形式涵盖选择题、填空题与判断题，难度分布合理，且图像与文本交错呈现，要求模型具备专家级的感知与跨模态推理能力。

使用方法

CMMMU主要用于评估大型多模态模型在中文语境下的综合理解与推理能力。研究者可采用零样本或少量样本的设置，将图像与问题文本输入模型，并利用提供的系统化评估管道，通过鲁棒的正则表达式从模型输出中提取答案。评价指标采用微平均准确率，并与随机选择及频繁选择基线进行对比。该基准特别适用于分析模型在不同学科、图像类型及难度层级上的性能差异，为开发下一代双语专家级人工智能提供指引。

背景与挑战

背景概述

随着大型多模态模型能力的持续增强，如何全面评估其在复杂感知与推理任务上的表现成为研究热点。然而，现有评估基准多集中于英文语境，中文情境下缺乏涵盖大学级别多学科知识与深度推理能力的评测体系。为填补这一空白，由香港科技大学、滑铁卢大学等机构的研究人员于2024年共同推出了CMMMU基准数据集。该数据集受MMMU启发，严格遵循其标注与分析范式，包含了从中国大学考试、测验及教科书中精心收集的约1.2万道多模态试题，覆盖艺术设计、商业、科学、健康医学、人文社科及技术与工程六大核心学科，涉及30个细分领域和39种高度异质的图像类型。CMMMU旨在评测大型多模态模型在中文语境下运用领域特定知识进行复杂感知与推理的能力，为下一代专家级人工智能的发展提供重要参考。

当前挑战

CMMMU数据集所面临的挑战主要体现在两个方面。首先，在领域问题层面，现有大型多模态模型在中文语境下的复杂推理与理解能力严重不足，即使是目前最先进的GPT-4V在该基准上的准确率也仅为42%，而开源模型的表现则更差，与随机选择基线相差无几，这揭示了从通用模型迈向专家级人工智能的显著鸿沟。其次，在构建过程中，数据集的创建面临多重困难：需要从海量大学教材、考试和测验中手工筛选出真正需要图像才能回答且要求大学级专业知识的问题，同时要严格控制数据质量，避免数据污染，并确保覆盖30个学科的多样性。此外，还需处理39种不同图像类型（如乐谱、化学结构、电路图等）带来的标注复杂性，以及平衡各学科题目数量的分布问题。

常用场景

经典使用场景

在大型多模态模型（LMMs）能力持续跃升的背景下，CMMMU作为首个中文大规模多学科多模态理解基准，专为评估模型在中文语境下需大学水平学科知识与缜密推理的任务而设计。其经典使用场景涵盖艺术设计、商业、科学、健康医学、人文社科及技术与工程六大核心学科，涉及30个学科方向与39种高度异质的图像类型，如乐谱、化学结构、电路图等，旨在检验模型对复杂视觉信息与领域特定知识的综合感知与推理能力。

衍生相关工作

CMMMU的发布催生了一系列相关研究工作，例如对开源与闭源双语LMMs在中文语境下性能差距的深入剖析，发现Yi-VL-34B等开源模型已将差距缩小至7%，显著优于英文语境下的表现。此外，该基准还激发了对模型错误类型的系统性分析，将错误归因于感知误差、知识匮乏、推理失误等，从而引导后续研究聚焦于提升模型在复杂条件计算与逻辑推理上的能力，并促进了对跨语言多模态理解机制的探索。

数据集最近研究