M4U-Benchmark/M4U

Name: M4U-Benchmark/M4U
Creator: M4U-Benchmark
Published: 2025-03-11 08:30:17
License: 暂无描述

Hugging Face2025-03-11 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/M4U-Benchmark/M4U

下载链接

链接失效反馈

官方服务：

资源简介：

M4U数据集是一个用于评估多语言多模态理解和推理能力的数据集，包含8,931个样本，涵盖科学、工程和医疗保健领域的64个学科，支持中文、英文和德文。数据集的特点包括图像类型、图像文件、问题、选项、答案、学科、子领域、领域、答案索引、语言、图像标题和跨语言信息。该数据集的目标是评估领先的多语言多模态模型的能力，并展示了这些模型在跨语言多模态问题上的性能下降。

提供机构：

M4U-Benchmark

原始信息汇总

数据集概述

数据集名称

M4U

数据集描述

M4U 是一个用于评估大型多模态模型多语言理解和推理能力的基准。该数据集包含8,931个样本，覆盖16个子领域的64个学科，涉及科学、工程和医疗健康领域，支持中文、英文和德文。

数据集特点

多语言支持：包含中文、英文和德文。
多模态：结合视觉和文本信息。
跨学科：涵盖科学、工程和医疗健康等多个学科领域。

数据集内容

样本数量：8,931个样本。
学科覆盖：64个学科，16个子领域。
语言支持：中文、英文、德文。

数据集格式

格式：JSON。
数据结构：包含问题文本、图像文件、图像标题、图像类型、选项、答案、答案索引、问题语言、学科、子领域、领域和是否跨语言等属性。

数据集使用

下载方式：通过Huggingface的API进行下载。
示例代码：提供了Python代码示例，展示如何加载和访问数据集。

数据集评估

评估模型：评估了21个领先的大型多模态模型（LMMs）和大型语言模型（LLMs）。
评估结果：展示了各模型的平均准确率，其中GPT-4o模型平均准确率为47.6%。

许可证

许可证：MIT

引用信息

引用格式：提供了BibTeX格式供学术引用。

数据集详情

数据集结构

json { "question": [string], "image_files": [list], "image_caption": [list], "image_type": [list], "options": [list], "answer": [string], "answer_index": [integer], "language": [string], "discipline": [string], "subfield": [string], "field": [string], "cross_lingual": [bool] }

评估模型列表

#	Model	Method	English	Chinese	German	Average
1	GPT-4o	LMM	47.8	49.4	45.6	47.6
...	...	...	...	...	...	...
23	VisualGLM	LMM	22.4	8.7	13.5	14.9

方法类型

LMM：大型多模态模型。
Tool：工具增强的大型语言模型。

搜集汇总

数据集介绍

构建方式

在人工智能迈向多语言、多模态理解与推理的征途中，现有基准测试常因难度不足而难以有效区分模型性能。M4U数据集应运而生，旨在填补这一评估空白。该数据集精心构建，囊括了来自科学、工程与医疗三大领域的16个子学科、64门具体学科，共计10,005个样本。每一份样本均以多模态选择题形式呈现，包含问题文本、图像文件、选项列表及标准答案等核心要素，并标注了学科、子领域、语言类型及是否为跨语言问题等元信息。数据覆盖英文、中文与德文三种语言，确保了评估的广度与深度。

特点

M4U数据集的核心特点在于其高度的挑战性与跨语言多模态推理的独特性。相较于以往的基准，M4U的问题设计紧密关联图像中的关键文本信息，使得不具备视觉理解能力的语言模型难以凭借文本线索蒙混过关。评估结果显示，即便是顶尖模型如GPT-4o，其平均准确率也仅为47.6%，充分彰显了数据集的难度。更为关键的是，该数据集揭示了当前领先的多模态大模型普遍存在的语言偏好现象，尤其在处理跨语言多模态问题时，模型性能会出现显著下降，如中文图像搭配英文或德文提问的场景，这为未来模型的优化指明了方向。

使用方法

M4U数据集的使用便捷而规范，旨在促进研究者快速开展模型评估。用户可通过HuggingFace的datasets库一键加载，执行简单的Python命令即可获取数据。数据集被划分为science_en、engineering_zh、healthcare_de等九个独立的分片，分别对应不同领域与语言的组合，便于进行细粒度的评测。使用时，用户可直接访问每个样本的question、options、image_files等字段，结合自身模型进行推理，并与标准答案比对以计算准确率。此外，数据集还提供了由Gemini Pro 1.0生成的图像描述（image_caption），作为辅助信息供工具增强型语言模型使用，进一步拓展了评估的灵活性。

背景与挑战

背景概述

多语言多模态推理是实现类人智能的核心能力之一，然而现有基准测试在评估前沿多模态模型时存在显著局限：即便是缺乏视觉理解能力的纯语言模型，亦能在这些测试中取得高分，导致模型间的真实性能差异难以被有效区分。为填补这一空白，中国科学院计算技术研究所的王鸿宇、王瑞平等研究人员于2024年5月发布了M4U基准数据集。该数据集精心构建了涵盖科学、工程与医疗三大领域、16个子学科及64个具体学科的10005个样本，横跨英文、中文和德文三种语言，旨在系统评估大型多模态模型在多学科、多语言环境下的理解与推理能力。M4U的提出为多模态领域树立了一个更具挑战性的评测标杆，其发布后迅速吸引了包括GPT-4o、Gemini系列在内的22个主流多模态模型参与评估，揭示了当前模型在该任务上的显著不足。

当前挑战

M4U数据集面临的核心挑战体现在两大层面。在领域问题层面，多语言多模态推理本身极具难度：模型需同时处理视觉信息与不同语言的文本，并完成跨学科的专业知识推理。实验表明，即使最先进的GPT-4o在M4U上的平均准确率也仅为47.6%，远未达到人类水平；且所有模型均表现出明显的语言偏好，当面对跨语言多模态问题（如图像包含中文关键文本而问题为英文或德文）时，性能显著下降。在数据集构建过程中，挑战同样严峻：如何从海量学科中筛选出真正需要视觉信息才能回答的问题，避免语言模型仅凭文本线索即可作答；如何确保样本在不同语言版本间保持语义等价性和难度一致性；以及如何为每个样本生成高质量的多语言图像描述和标注，均需要投入大量的人工审核与跨学科专家协作，以保证基准的可靠性与公正性。

常用场景

经典使用场景

M4U数据集专为评估大型多模态模型在多语言、多学科环境下的理解与推理能力而设计。其经典使用场景涵盖科学、工程与医疗三大领域，包含64个学科与16个子领域，共计10005个样本。研究者可利用该数据集对模型进行跨语言（英语、中文、德语）的视觉问答评测，尤其关注模型在图像包含关键文字信息时，面对不同语言提问的表现。M4U的独特之处在于其高难度——即便是最先进的GPT-4o模型，平均准确率也仅为47.6%，从而为区分不同模型的真实多语言多模态能力提供了严苛的基准。

解决学术问题

该数据集有效解决了现有多语言多模态基准测试中模型性能区分度不足的学术难题。此前许多基准存在语言模型即便不具备视觉能力也能轻松得分的缺陷，难以真实反映多模态模型的综合水平。M4U通过设计跨学科、跨语言的复杂视觉推理任务，揭示了当前领先模型在跨语言环境下的显著性能退化现象，例如当图像含有中文关键信息而问题为英文或德文时，模型表现大幅下降。这一发现为学术界深入理解多模态模型的跨语言鲁棒性、语言偏好及视觉-语言对齐机制提供了关键研究支撑。

衍生相关工作

M4U数据集已催生一系列衍生研究工作，包括对其子集M4U-mini的扩展评测，新增日语、阿拉伯语和泰语等更多语言，进一步探索模型的跨语言泛化能力。该数据集还促使研究者开发新的评估方法，如结合思维链（CoT）提示策略以提升模型在多语言视觉推理中的表现。此外，M4U的公开排行榜持续吸引GPT-4o、InternVL2.5、Qwen2-VL等前沿模型参与竞争，推动了多模态模型在跨学科、跨语言理解领域的迭代优化，并为后续研究如多语言视觉表征学习、语言偏好消偏等提供了重要基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集