EMMA

github2025-01-10 更新2025-01-11 收录

下载链接：

https://github.com/hychaochao/EMMA

下载链接

链接失效反馈

官方服务：

资源简介：

EMMA（增强多模态推理）是一个针对数学、物理、化学和编码领域的有机多模态推理基准测试。EMMA包含2,788个问题，其中1,796个是新构建的，每个问题都根据其测量的具体技能提供了细粒度的标签。

EMMA (Enhanced Multimodal Reasoning) is an organic multimodal reasoning benchmark targeting the domains of mathematics, physics, chemistry, and coding. EMMA comprises 2,788 questions, 1,796 of which are newly constructed, and each question is assigned fine-grained labels based on the specific skills it assesses.

创建时间：

2025-01-09

原始信息汇总

EMMA: 增强型多模态推理基准

数据集概述

EMMA（Enhanced MultiModal reAsoning）是一个针对多模态推理的基准测试，涵盖数学、物理、化学和编程四个领域。该数据集旨在评估多模态大语言模型（MLLMs）在处理复杂多模态和多步骤推理任务时的能力。

数据集内容

问题数量：2,788个问题，其中1,796个是新构建的。
领域：数学、物理、化学、编程。
问题类型：每个问题都标注了具体的技能标签，并提供了详细的解题步骤。

数据集格式

数据集以jsonl格式提供，包含以下属性：

pid：问题ID。
question：问题文本。
options：选择题选项，自由形式问题可能为none。
answer：正确答案。
image_1到image_5：相关图像。
solution：详细的解题步骤。
subject：问题所属领域。
task：问题任务类型。
category：问题类别。
source：数据来源。
type：问题类型（如选择题、开放式问题）。
context：问题背景知识，无背景时为none。

数据集下载

EMMA：完整数据集。
EMMA-mini：从EMMA中随机抽取的400个问题（每个领域100个）。

下载命令示例： python from datasets import load_dataset

dataset = load_dataset("luckychao/EMMA", "Math", split="test") dataset = load_dataset("luckychao/EMMA-mini", "Math", split="test")

评估方法

响应生成

支持开源模型（如Qwen2-VL、InternVL、LLaVA）和闭源模型（如GPT、Gemini、Claude）的响应生成。

答案评估

提供两种评估方法：

fast-eval：基于规则的快速评估。
LLMs-eval：使用GPT-4o等高级模型进行精确评估。

分数计算

执行python evaluation/calculate_acc.py计算最终分数，包括总体准确率及各领域、类别和任务的准确率。

引用

如果使用该基准测试，请引用以下文献： bibtex @misc{hao2025mllmsreasonmultimodalityemma, title={Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark}, author={Yunzhuo Hao and Jiawei Gu and Huichen Will Wang and Linjie Li and Zhengyuan Yang and Lijuan Wang and Yu Cheng}, year={2025}, eprint={2501.05444}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.05444}, }

搜集汇总

数据集介绍

构建方式

EMMA数据集通过精心设计的跨模态推理任务构建，涵盖了数学、物理、化学和编程四个领域。数据集的构建过程包括从现有数据集中筛选问题以及新标注1,796个问题，确保每个问题都具备跨模态推理的复杂性。每个问题都附有详细的技能标签，便于研究者深入分析模型在不同任务中的表现。

特点

EMMA数据集包含2,788个跨模态推理问题，其中1,796个为新构建的问题，覆盖数学、物理、化学和编程四大领域。每个问题均标注了详细的技能类别和任务类型，并提供了多张相关图像作为辅助信息。数据集的设计旨在测试多模态大语言模型在复杂推理任务中的表现，尤其是跨模态和多步骤推理能力。

使用方法

EMMA数据集可通过Hugging Face平台下载，支持以JSONL格式加载。用户可通过`load_dataset`函数加载完整数据集或其子集EMMA-mini。数据集的使用包括模型响应生成和答案评估两个主要步骤。响应生成支持开源和闭源模型，评估方法包括快速评估和基于LLMs的精确评估。最终，用户可通过计算脚本获取模型在各领域和任务中的准确率。

背景与挑战

背景概述

EMMA（Enhanced MultiModal reAsoning）是一个专注于多模态推理的基准测试数据集，旨在评估多模态大语言模型（MLLMs）在跨模态推理任务中的表现。该数据集由Yunzhuo Hao等研究人员于2025年提出，涵盖了数学、物理、化学和编程四个领域的2788个问题，其中1796个为新构建的问题。EMMA的核心研究问题在于探索MLLMs是否能够在文本和图像之间进行有机推理，尤其是在需要跨模态和多步骤推理的复杂任务中。该数据集的发布为多模态推理领域提供了新的评估标准，推动了相关模型架构和训练范式的改进。

当前挑战

EMMA数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，EMMA旨在解决多模态推理中的复杂任务，这些任务要求模型能够同时处理文本和图像信息，并进行跨模态的有机推理。然而，现有的MLLMs在处理此类任务时表现不佳，即使是先进的提示技术和计算扩展也难以达到理想效果。其次，在数据集构建过程中，研究人员需要确保问题的多样性和复杂性，以全面评估模型的推理能力。这涉及到对每个问题的精细标注和跨领域知识的整合，增加了数据集的构建难度。这些挑战凸显了当前多模态推理模型的局限性，并为未来的研究提供了明确的方向。

常用场景

经典使用场景

EMMA数据集在评估多模态大语言模型（MLLMs）的跨模态推理能力方面具有重要应用。通过涵盖数学、物理、化学和编程等多个领域的复杂问题，EMMA为研究者提供了一个全面的测试平台，用于验证模型在处理多模态数据时的推理能力。特别是在需要结合文本和图像信息进行多步推理的任务中，EMMA能够有效评估模型的综合表现。

衍生相关工作

EMMA数据集催生了一系列相关研究，特别是在多模态推理模型的改进和评估方面。基于EMMA的评估结果，研究者提出了多种新的训练方法和模型架构，如增强的链式思维提示（Chain-of-Thought prompting）和测试时计算扩展技术。此外，EMMA还为多模态领域的基准测试提供了新的标准，推动了该领域的标准化和规范化发展。

数据集最近研究