EMMA
收藏EMMA: 增强型多模态推理基准
数据集概述
EMMA(Enhanced MultiModal reAsoning)是一个针对多模态推理的基准测试,涵盖数学、物理、化学和编程四个领域。该数据集旨在评估多模态大语言模型(MLLMs)在处理复杂多模态和多步骤推理任务时的能力。
数据集内容
- 问题数量:2,788个问题,其中1,796个是新构建的。
- 领域:数学、物理、化学、编程。
- 问题类型:每个问题都标注了具体的技能标签,并提供了详细的解题步骤。
数据集格式
数据集以jsonl格式提供,包含以下属性:
pid:问题ID。question:问题文本。options:选择题选项,自由形式问题可能为none。answer:正确答案。image_1到image_5:相关图像。solution:详细的解题步骤。subject:问题所属领域。task:问题任务类型。category:问题类别。source:数据来源。type:问题类型(如选择题、开放式问题)。context:问题背景知识,无背景时为none。
数据集下载
- EMMA:完整数据集。
- EMMA-mini:从EMMA中随机抽取的400个问题(每个领域100个)。
下载命令示例: python from datasets import load_dataset
dataset = load_dataset("luckychao/EMMA", "Math", split="test") dataset = load_dataset("luckychao/EMMA-mini", "Math", split="test")
评估方法
响应生成
支持开源模型(如Qwen2-VL、InternVL、LLaVA)和闭源模型(如GPT、Gemini、Claude)的响应生成。
答案评估
提供两种评估方法:
- fast-eval:基于规则的快速评估。
- LLMs-eval:使用GPT-4o等高级模型进行精确评估。
分数计算
执行python evaluation/calculate_acc.py计算最终分数,包括总体准确率及各领域、类别和任务的准确率。
引用
如果使用该基准测试,请引用以下文献: bibtex @misc{hao2025mllmsreasonmultimodalityemma, title={Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark}, author={Yunzhuo Hao and Jiawei Gu and Huichen Will Wang and Linjie Li and Zhengyuan Yang and Lijuan Wang and Yu Cheng}, year={2025}, eprint={2501.05444}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2501.05444}, }




