kianasun/MARVEL

Name: kianasun/MARVEL
Creator: kianasun
Published: 2024-04-30 20:02:18
License: 暂无描述

Hugging Face2024-04-30 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/kianasun/MARVEL

下载链接

链接失效反馈

官方服务：

资源简介：

MARVEL是一个新的综合性基准数据集，用于评估多模态大语言模型在六种模式和五种不同任务配置下的抽象推理能力，揭示了人类与当前最先进的多模态大语言模型之间的显著性能差距。

提供机构：

kianasun

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
数据集名称: MARVEL (Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning)
任务类别:
- 视觉问答
- 问答
- 多选
- 图像分类
任务ID:
- 多选QA
- 封闭领域QA
- 开放领域QA
- 视觉问答
标签:
- 多模态QA
- 几何QA
- 抽象推理
- 几何推理
- 视觉谜题
- 非言语推理
- 抽象形状
语言: 英语
数据集大小: 小于1K

数据集结构

配置:
- 默认配置: marvel.parquet
数据集信息:
- 特征:
  - id: 整数64位
  - pattern: 字符串
  - task_configuration: 字符串
  - avr_question: 字符串
  - explanation: 字符串
  - answer: 整数64位
  - f_perception_question: 字符串
  - f_perception_answer: 字符串
  - f_perception_distractor: 字符串
  - c_perception_question_tuple: 字符串序列
  - c_perception_answer_tuple: 字符串序列
  - file: 字符串
  - image: 图像类型

数据集用途

评估多模态大型语言模型的抽象推理能力。

数据集内容

字段:
- id: 问题ID
- pattern: 问题的高级模式类别
- task_configuration: 问题的任务配置
- avr_question: AVR问题的文本
- answer: AVR问题的答案
- explanation: 回答问题的文本推理过程
- f_perception_question: 细粒度感知问题
- f_perception_answer: 细粒度感知问题的答案
- f_perception_distractor: 细粒度感知问题的干扰项
- c_perception_question_tuple: 粗粒度感知问题的列表
- c_perception_answer_tuple: 粗粒度感知问题答案的列表
- file: 问题的图像路径

数据集描述

MARVEL是一个全面的基准数据集，用于评估多模态大型语言模型在六种模式下的抽象推理能力，揭示了人类与最先进的MLLMs之间的显著性能差距。

搜集汇总

数据集介绍

构建方式

MARVEL数据集的构建基于对多模态大语言模型抽象推理能力的系统性评估需求，涵盖六种核心抽象模式（如几何推理、视觉谜题等）与五种不同的任务配置（如多项选择、视觉问答等）。数据集包含约1000个精心设计的问题，每个问题均配有图像、文本描述、推理过程解释及细粒度与粗粒度感知问题。构建过程注重多维度的抽象推理挑战，通过人工标注与专家验证确保问题的多样性与难度梯度，并参考了相关研究论文（arXiv:2404.13591）中的方法论。

特点

MARVEL数据集的核心特点在于其多维抽象推理评估框架，能够揭示当前最先进多模态大语言模型与人类在视觉抽象推理上的性能鸿沟。数据集覆盖多种抽象模式，如非语言推理、几何形状理解等，且每个问题包含详细的推理解释，支持对模型认知过程的深入分析。此外，数据集提供细粒度与粗粒度感知问题，允许从不同层次评估模型的感知与推理能力，具有高度的结构化和可解释性。

使用方法

使用MARVEL数据集时，用户需加载包含图像与标注的JSONL文件，通过字段如'pattern'、'task_configuration'和'avr_question'获取问题信息。模型需根据图像与文本输入生成答案，并与标准答案比较以评估性能。数据集支持多种任务类型（如分类、问答），用户可根据研究目标选择特定配置或模式进行测试。建议结合提供的推理解释进行错误分析，以深入理解模型在抽象推理中的不足。

背景与挑战

背景概述

MARVEL（Multidimensional Abstraction and Reasoning through Visual Evaluation and Learning）数据集由Yifan Jiang、Jiarui Zhang、Kexuan Sun等研究者于2024年提出，旨在系统评估多模态大语言模型在抽象推理方面的能力。该数据集的创建源于对现有视觉问答基准的反思——多数基准聚焦于物体识别或简单语义理解，而忽视了人类智能中至关重要的抽象推理与模式归纳能力。MARVEL涵盖六种推理模式与五种任务配置，通过视觉谜题、几何推理等非语言性挑战，揭示了当前最先进多模态模型与人类表现之间的显著鸿沟。自发布以来，该数据集已成为衡量多模态模型高层次认知能力的重要基准，推动研究者关注模型在复杂视觉抽象任务上的局限性，对人工智能领域向类人推理迈进具有里程碑意义。

当前挑战

MARVEL数据集所面临的挑战核心在于多模态大语言模型在抽象推理上的根本性不足。具体而言，当前模型在处理需要跨模式归纳与空间关系理解的几何推理任务时表现欠佳，尤其在涉及非语言性视觉谜题和模式变体识别时，模型准确率远低于人类水平。构建过程中，研究者需精心设计涵盖六种推理模式的多样化任务，并确保每个问题具备明确的抽象逻辑与可解释性，这要求对视觉刺激与推理路径进行精细标注，以避免简单记忆或表面模式匹配。此外，数据集规模较小（不足千例）虽利于精细化评估，却限制了模型泛化能力的充分检验，如何平衡任务复杂度与数据量成为可持续发展的关键瓶颈。

常用场景

经典使用场景

MARVEL数据集最经典的使用场景在于评估多模态大语言模型在抽象推理方面的能力。该数据集通过六个不同的推理模式（如几何推理、视觉谜题等）和五种任务配置，构建了一个多维度的抽象推理评估框架。研究者可以利用MARVEL对模型进行视觉问答、多选问答、图像分类等任务的测试，从而系统性地衡量模型在处理非语言抽象推理问题时的表现。其独特的设计使得它成为检验当前最先进多模态模型推理能力的标杆性基准。

衍生相关工作

MARVEL数据集的发布催生了一系列相关研究工作。其论文中提出的评估框架和基准测试方法已被后续研究广泛引用，用于比较不同多模态模型在抽象推理任务上的表现。此外，该数据集促使研究者开发了针对性的训练策略和模型架构改进方案，例如通过引入更精细的感知问题（如细粒度感知和粗粒度感知问题）来增强模型的推理链。同时，MARVEL也激发了关于如何将抽象推理能力迁移到其他视觉-语言任务中的探索，推动了多模态人工智能领域向更高层次的认知能力迈进。

数据集最近研究