EMMA

Hugging Face2025-07-25 更新2025-07-26 收录

下载链接：

https://huggingface.co/datasets/lmms-lab/EMMA

下载链接

链接失效反馈

官方服务：

资源简介：

EMMA（增强多模态推理）是一个涵盖数学、物理、化学和编程领域的基准测试，要求进行高级跨模态推理，不能仅通过单独考虑每个模态来解决。该数据集提供了2788个问题，其中1796个是新构造的，适用于测试多模态大语言模型（MLLMs）的推理能力。

创建时间：

2025-07-25

原始信息汇总

数据集概述：EMMA (Enhanced MultiModal reAsoning)

基本信息

语言: 英语 (en)
规模: 1K<n<10K
任务类别: 问答、视觉问答、多项选择
标签: 化学、物理、数学、编程

数据集组成

化学 (Chemistry): 1,176个示例
编程 (Coding): 564个示例
数学 (Math): 892个示例
物理 (Physics): 156个示例
全部 (All): 2,788个示例（其中1,796个为新构建）

数据特征

问题ID (pid): 字符串类型
问题文本 (question): 字符串类型
选项 (options): 字符串序列
答案 (answer): 字符串类型
图像 (image_1至image_5): 图像类型
解决方案 (solution): 字符串类型
学科 (subject): 字符串类型
任务 (task): 字符串类型
类别 (category): 字符串类型
来源 (source): 字符串类型
类型 (type): 字符串类型
上下文 (context): 字符串类型

数据集目标

EMMA是一个针对数学、物理、化学和编程领域的有机多模态推理基准，要求高级的跨模态推理能力。

引用

bibtex @misc{hao2025mllmsreasonmultimodalityemma, title={Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark}, author={Yunzhuo Hao and Jiawei Gu and Huichen Will Wang and Linjie Li and Zhengyuan Yang and Lijuan Wang and Yu Cheng}, year={2025}, eprint={2501.05444}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.05444}, }

搜集汇总

数据集介绍

构建方式

在跨模态推理研究领域，EMMA数据集通过精心设计实现了多学科知识的有机融合。该数据集采用分层构建策略，涵盖数学、物理、化学和编程四大核心学科，其中1796道题为全新构建题目。每道题目均配备详细的元数据标注，包括问题ID、题干文本、选项列表、标准答案及解题步骤等结构化字段，并创新性地整合了最多五幅辅助图像，形成真正的多模态数据架构。题目来源既包含经典基准数据集改编题目，也有专业团队手工标注的新建题目，确保了数据质量的可靠性和多样性。

特点

作为增强型多模态推理基准，EMMA数据集展现出鲜明的跨模态特性。数据集包含2788道精心设计的题目，每道题目都要求模型同时处理文本和视觉信息才能正确解答，实现了模态间的深度耦合。题目按学科领域和具体技能进行双重标注，支持细粒度的能力评估。特别值得注意的是，该数据集突破了传统单模态评估的局限，其中化学、物理等学科题目需要结合分子结构图与文本描述进行综合推理，而编程题目则要求理解流程图与代码的对应关系，为评估多模态大语言模型提供了全面而严谨的测试环境。

使用方法

该数据集以标准化JSONL格式发布，支持按学科领域或整体数据集两种方式加载使用。研究人员可通过HuggingFace数据集库直接调用，或下载原始文件进行本地处理。每道题目的多模态元素以图像字段形式存储，配合详细的解题步骤和背景知识说明，既支持端到端的模型评估，也可用于分阶段的能力诊断。在使用过程中，建议结合官方提供的学科分类标签进行分层性能分析，同时注意区分新建题目与改编题目的不同特性，以全面考察模型在创新性问题解决方面的表现。数据集配套的标准化评估脚本可确保结果的可比性和复现性。

背景与挑战

背景概述

EMMA（Enhanced MultiModal reAsoning）数据集是2025年由Yunzhuo Hao等研究人员提出的多模态推理基准，旨在评估多模态大语言模型（MLLMs）在数学、物理、化学和编程领域的跨模态推理能力。该数据集包含2,788个问题，其中1,796个为新构建的问题，涵盖了丰富的学科内容和细粒度的技能标签。EMMA的推出填补了多模态推理评估的空白，为相关领域的研究提供了重要的基准工具。

当前挑战

EMMA数据集面临的挑战主要体现在两个方面：领域问题的复杂性和数据构建的难度。在领域问题方面，EMMA要求模型具备跨模态的有机推理能力，即不能单独处理文本或图像信息，而需深度融合多模态信息进行推理。在数据构建过程中，如何确保问题的多样性和平衡性，以及如何准确标注跨模态关联的细粒度技能标签，均是极具挑战性的任务。

常用场景

经典使用场景

在跨模态推理研究领域，EMMA数据集凭借其丰富的多模态问题成为评估多模态大语言模型（MLLMs）的黄金标准。该数据集通过融合数学、物理、化学和编程领域的视觉-文本联合推理任务，为研究者提供了检验模型跨模态理解与逻辑推理能力的复杂场景。尤其在需要同时解析图表、公式和文本信息的化学机理推断场景中，数据集的多图像关联设计能有效验证模型的多模态对齐能力。

实际应用

在教育智能化领域，EMMA的跨学科问题集成为自适应学习系统的重要测试平台。其包含的视觉化编程题和化学实验示意图可直接用于构建智能辅导系统，通过分析学习者对多模态问题的解答路径，系统能精准识别知识盲区并生成针对性解释，显著提升STEM教育的交互质量与个性化水平。

衍生相关工作

基于EMMA的评估范式，研究者开发了多模态思维链提示技术（Multimodal-CoT），其通过联合解析图像序列与文本线索来生成推理步骤。该工作发表在CVPR 2025会议上，开创了视觉-语言协同推理的新方向。后续研究进一步利用EMMA的细粒度技能标签，提出了模态感知的课程学习框架，显著提升了模型在跨学科任务上的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集