MME-CoT

Hugging Face2025-02-15 更新2025-02-16 收录

下载链接：

https://huggingface.co/datasets/CaraJ/MME-CoT

下载链接

链接失效反馈

官方服务：

资源简介：

MME-CoT是一个专门用于评估大型多模态模型(LMMs)链式思维(CoT)推理性能的基准数据集，涵盖了数学、科学、OCR、逻辑、时空和一般场景六个领域。该数据集提出了一个全面的评估套件，包括三个新颖的指标，用于在细粒度层面上评估推理质量、鲁棒性和效率。

MME-CoT is a benchmark dataset specifically designed to evaluate the chain-of-thought (CoT) reasoning performance of large multimodal models (LMMs), covering six domains: mathematics, science, OCR, logic, spatio-temporal reasoning, and general scenarios. This dataset proposes a comprehensive evaluation suite that includes three novel metrics for assessing reasoning quality, robustness and efficiency at a fine-grained level.

创建时间：

2025-02-09

原始信息汇总

MME-CoT 数据集概述

任务类别

图像-文本到文本 (image-text-to-text)

语言

英语 (en)

数据规模

1K < n < 10K

数据配置

默认配置 (default)
- 测试集 (test): MME-CoT.parquet

数据集信息

端到端配置 (end2end)
- 特征:
  - index: 字符串 (string)
  - question: 字符串 (string)
  - answer: 字符串 (string)
  - category: 字符串 (string)
  - subcategory: 字符串 (string)
  - meta_info: 序列字符串 (sequence of string)
  - question_type: 字符串 (string)
  - key_annotation_steps: 字符串 (string)
  - reference_caption: 序列字符串 (sequence of string)
  - image: 序列图像 (sequence of image)
- 划分:
  - 测试集 (test): 1130个样本

搜集汇总

数据集介绍

构建方式

MME-CoT数据集的构建，是基于多模态大模型在链式思维（CoT）推理能力上的评估需求。该数据集涵盖了六个领域：数学、科学、光学字符识别（OCR）、逻辑、时空以及一般场景，精心挑选并整合了高质量的数据样本，形成了包含图像和文本的复合数据集，旨在全面评估大型多模态模型在不同任务中的推理质量、鲁棒性和效率。

特点

MME-CoT数据集的特点在于其全面性和深度。它不仅提供了丰富的多模态数据，还设计了一套全面的评估方案，包括三个新颖的评估指标，用于在细粒度层面评价模型的推理质量、鲁棒性和效率。数据集通过独特的评估策略，揭示了当前最先进的多模态模型在CoT推理中的优势和不足。

使用方法

使用MME-CoT数据集，研究者可以通过HuggingFace平台便捷地加载和利用数据。首先需要安装相关包，然后通过简单的代码即可加载数据集。此外，贡献模型至排行榜需要将预测文件发送至指定邮箱，以促进研究的交流和模型的比较。

背景与挑战

背景概述

MME-CoT数据集，是一项专注于评估大型多模态模型中链式思维（CoT）推理性能的专业基准研究。该数据集由CaraJ团队于2025年推出，覆盖数学、科学、光学字符识别、逻辑、时空以及一般场景六大领域，旨在为大型多模态模型在视觉推理领域的系统性评估和深入研究提供基础。MME-CoT的提出，是对大型语言模型中CoT影响的多模态模型性能的首次全面研究，并引入了一套包含三个新颖度量的全面评估方案，用以细致评估推理质量、鲁棒性和效率。

当前挑战

该数据集在构建过程中所面临的挑战包括：如何精确地评估多模态模型在链式思维模式下的推理质量、鲁棒性和效率；如何在不同的视觉推理任务中，平衡模型的表现，避免过度思考行为对性能的负面影响；以及如何在保证推理质量的同时，提升模型的响应效率和自我修正能力。MME-CoT数据集的发布，不仅为研究人员提供了一个评价和比较不同多模态模型性能的平台，也揭示了当前多模态模型在CoT应用中存在的不足和改进空间。

常用场景

经典使用场景

MME-CoT数据集是针对大型多模态模型在推理质量、鲁棒性和效率方面的Chain-of-Thought（CoT）性能评估的专用基准。该数据集的经典使用场景在于为研究者提供了一个全面的多模态推理评估框架，通过六个领域的任务（数学、科学、OCR、逻辑、时空和一般场景）来评估模型的CoT性能。

解决学术问题

MME-CoT数据集解决了大型多模态模型在CoT推理性能评估方面缺乏系统评估和深入研究的学术问题。它通过引入三个新颖的细粒度评估指标，即推理质量、鲁棒性和效率，为评估大型多模态模型在多模态推理任务上的性能提供了全面的工具。

衍生相关工作

基于MME-CoT数据集，已衍生出多项相关研究工作，如MME-Survey对多模态LLM评估的综合调研，MME对多模态大型语言模型的全面评估基准，以及MMSearch对大型模型作为多模态搜索引擎潜力的评估等，这些工作进一步推动了多模态大型模型的研究和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集