EMMA
收藏github2025-05-07 更新2025-05-21 收录
下载链接:
https://github.com/EMMA-Bench/EMMA
下载链接
链接失效反馈官方服务:
资源简介:
EMMA(增强多模态推理基准)是一个针对数学、物理、化学和编码领域的有机多模态推理能力的基准测试。它包含2,788个问题,其中1,796个是新构建的,要求高级的跨模态推理能力。EMMA旨在测试多模态大型语言模型(MLLMs)在复杂多模态和多步推理任务中的表现。
EMMA (Enhanced Multimodal Reasoning Benchmark) is a benchmark designed to evaluate organic multimodal reasoning capabilities across the domains of mathematics, physics, chemistry, and coding. It consists of 2,788 questions, 1,796 of which are newly constructed and require advanced cross-modal reasoning abilities. EMMA aims to test the performance of Multimodal Large Language Models (MLLMs) on complex multimodal and multi-step reasoning tasks.
创建时间:
2025-05-06
原始信息汇总
EMMA: An Enhanced MultiModal ReAsoning Benchmark
📌 概述
EMMA是一个针对多模态推理能力的增强型基准测试,专注于数学、物理、化学和编程领域的有机多模态推理。该数据集包含2,788个问题,其中1,796个为新构建的问题,旨在评估多模态大语言模型(MLLMs)在复杂多模态和多步推理任务中的表现。
📊 数据集详情
- 数据量: 2,788个问题
- 领域: 数学、物理、化学、编程
- 子集: EMMA-mini(400个问题,每个领域100个)
- 数据格式: JSONL
- 关键字段:
pid: 问题IDquestion: 问题文本options: 选择题选项answer: 正确答案image_1到image_5: 相关图像solution: 详细解题步骤subject: 所属领域task: 问题任务类型category: 问题类别source: 数据来源type: 问题类型(选择题/开放式)context: 背景知识
📥 数据下载
- 完整数据集: Huggingface EMMA
- 子集: Huggingface EMMA-mini
📈 评估方法
- 响应生成: 支持开源模型(如Qwen2-VL、InternVL、LLaVA)和闭源模型(如GPT、Gemini、Claude)。
- 答案评估:
- Fast-eval: 基于规则的快速提取
- LLMs-eval: 使用高级模型(如GPT-4o)提高提取和评估精度
- 分数计算: 计算总体准确率及各领域、类别和任务的准确率
📜 引用
bibtex @article{hao2025can, title={Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark}, author={Hao, Yunzhuo and Gu, Jiawei and Wang, Huichen Will and Li, Linjie and Yang, Zhengyuan and Wang, Lijuan and Cheng, Yu}, journal={arXiv preprint arXiv:2501.05444}, year={2025} }
🌐 相关链接
- 论文: arXiv
- 主页: EMMA Homepage
- 排行榜: Leaderboard
搜集汇总
数据集介绍
构建方式
在探索多模态大语言模型(MLLMs)的跨模态推理能力时,EMMA数据集应运而生。该数据集精心构建了2,788个涵盖数学、物理、化学和编程四大领域的问题,其中1,796个为全新设计。每个问题均标注了所需的具体技能,并采用多图像关联的呈现形式,确保问题解决需依赖跨模态的有机推理。数据来源既包含公开数据集(如math-vista)的精选问题,也包含人工标注的新样本,形成了兼具广度和深度的评测体系。
特点
EMMA数据集以其独特的跨模态复杂性著称,所有问题均需同时处理文本和图像信息才能解答,有效避免了单模态思维可能带来的偏差。数据集细分为四大核心学科,每个学科下进一步标注了问题类别和任务类型,如编程领域的'Code Choose Vis'或数学中的'2D Transformation'。其数据格式包含问题ID、题干、选项、答案、多张关联图像、详细解题步骤等15个结构化字段,为研究者提供了丰富的元数据分析维度。
使用方法
研究者可通过Hugging Face平台直接加载完整版EMMA或其精简版EMMA-mini,每个学科数据以独立模块形式提供。评测流程支持开源模型(如Qwen2-VL)和闭源模型(如GPT-4)的响应生成,提供思维链(CoT)等多种推理策略。评估阶段采用双轨制:基于规则快速提取答案的Fast-eval模式,以及利用GPT-4o等先进模型进行精细评估的LLMs-eval模式。最终通过专用脚本可计算整体准确率及分学科、分类别的细粒度性能指标。
背景与挑战
背景概述
EMMA(Enhanced MultiModal reAsoning)是由Yunzhuo Hao等研究人员于2025年提出的多模态推理基准测试,旨在评估多模态大语言模型(MLLMs)在跨模态推理方面的能力。该数据集由2,788个问题组成,涵盖数学、物理、化学和编程四个领域,其中1,796个问题为全新构建。EMMA的独特之处在于其强调有机的多模态推理,即要求模型能够同时处理文本和图像信息,而非单独分析各模态数据。这一研究由ICML 2025收录为亮点论文(2.6%),标志着多模态推理领域的重要进展。EMMA的推出为评估和改进MLLMs的跨模态推理能力提供了标准化测试平台,推动了多模态人工智能的发展。
当前挑战
EMMA数据集面临的核心挑战主要体现在两个方面:领域问题的复杂性和数据构建的严谨性。在领域问题方面,EMMA要求模型具备高级的跨模态推理能力,能够有机融合文本和图像信息进行多步骤推理,这对现有MLLMs架构提出了严峻考验。评估结果显示,即使是采用思维链提示(Chain-of-Thought)等先进技术的模型,在处理这类复杂任务时仍表现欠佳。在数据构建方面,创建涵盖多个学科、需要专业知识标注的高质量多模态问题集极具挑战性。研究人员需要确保问题的科学性、答案的准确性以及图像-文本对的相关性,同时还要平衡各学科领域的覆盖范围和难度层级。这些挑战凸显了开发更强大多模态推理模型的迫切需求。
常用场景
经典使用场景
EMMA数据集作为增强多模态推理基准,广泛应用于评估多模态大语言模型(MLLMs)在数学、物理、化学和编程等领域的跨模态推理能力。其经典使用场景包括模型性能测试、推理能力验证以及多模态任务处理能力的评估。通过提供丰富的多模态问题和详细的解决方案,EMMA为研究者提供了一个全面的测试平台,帮助验证模型在复杂推理任务中的表现。
解决学术问题
EMMA数据集解决了多模态推理研究中缺乏系统性评估工具的问题。通过涵盖多个学科领域的复杂推理任务,该数据集为研究者提供了量化模型在多模态环境下推理能力的标准。其细粒度的问题分类和标注进一步帮助研究者识别模型在特定技能上的短板,推动了多模态推理模型的优化与改进。
衍生相关工作
EMMA数据集衍生了一系列经典研究工作,包括多模态推理模型的架构优化、新型训练范式的探索以及跨模态注意力机制的改进。许多研究基于EMMA的评估结果提出了创新性方法,例如结合链式思维提示(Chain-of-Thought)和测试时计算扩展技术,进一步推动了多模态推理领域的发展。
以上内容由遇见数据集搜集并总结生成



