TIGER-Lab/Mantis-Eval

Hugging Face2024-11-15 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/TIGER-Lab/Mantis-Eval

下载链接

链接失效反馈

资源简介：

Mantis-Eval是一个新策划的数据集，用于评估多模态语言模型在多图像推理上的能力。该数据集包含200多个由人类注释的挑战性多图像推理问题。数据集的特征包括id、问题类型、问题、图像、选项、答案、数据来源和类别。数据集的分割信息显示，测试集包含217个示例，总字节数为479770102。

Mantis-Eval is a newly curated dataset to evaluate multimodal language models capability to reason over multiple images. This evaluation dataset contains more than 200 human-annotated challenging multi-image reasoning problems. The features of the dataset include id, question type, question, images, options, answer, data source, and category. The split information shows that the test set contains 217 examples with a total of 479770102 bytes.

提供机构：

TIGER-Lab

原始信息汇总

数据集概述

基本信息

语言: 英语
许可证: Apache 2.0
大小分类: n<1K
任务分类: 问答
美观名称: Mantis-Eval

数据集配置

配置名称: mantis_eval
特征:
- id: 字符串
- question_type: 字符串
- question: 字符串
- images: 图像序列
- options: 字符串序列
- answer: 字符串
- data_source: 字符串
- category: 字符串
分割:
- test:
  - 字节数: 479770102
  - 示例数: 217
下载大小: 473031413
数据集大小: 479770102

数据文件

配置名称: mantis_eval
数据文件:
- 分割: test
- 路径: mantis_eval/test-*

统计信息

包含超过200个人工标注的复杂多图像推理问题。

排行榜

模型	大小	Mantis-Eval
GPT-4V	-	62.67
Mantis-SigLIP	8B	59.45
Mantis-Idefics2	8B	57.14
Mantis-CLIP	8B	55.76
VILA	8B	51.15
BLIP-2	13B	49.77
Idefics2	8B	48.85
InstructBLIP	13B	45.62
LLaVA-V1.6	7B	45.62
CogVLM	17B	45.16
Qwen-VL-Chat	7B	39.17
Emu2-Chat	37B	37.79
VideoLLaVA	7B	35.04
Mantis-Flamingo	9B	32.72
LLaVA-v1.5	7B	31.34
Kosmos2	1.6B	30.41
Idefics1	9B	28.11
Fuyu	8B	27.19
OpenFlamingo	9B	12.44
Otter-Image	9B	14.29

引用

如果使用此数据集，请引用以下工作：

@inproceedings{Jiang2024MANTISIM, title={MANTIS: Interleaved Multi-Image Instruction Tuning}, author={Dongfu Jiang and Xuan He and Huaye Zeng and Cong Wei and Max W.F. Ku and Qian Liu and Wenhu Chen}, publisher={arXiv2405.01483} year={2024}, }

AI搜集汇总

数据集介绍

构建方式

Mantis-Eval数据集的构建，旨在评估多模态语言模型在处理多图像推理问题上的能力。该数据集由217个人工标注的具有挑战性的多图像推理问题组成，每个问题包含问题类型、问题文本、相关图像序列、选项以及正确答案等信息，为模型的评估提供了全面而细致的依据。

特点

Mantis-Eval数据集的特点在于其专注于多图像推理任务，要求模型能够理解并整合多个图像的信息来进行有效的推理。数据集规模虽小，但每个样本都是经过人工精心标注，确保了问题的质量和难度，非常适合作为评估多模态语言模型性能的基准。

使用方法

使用Mantis-Eval数据集时，研究者可以按照数据集提供的测试分割进行模型性能的评估。数据集以Apache-2.0许可证开源，可以通过下载相应配置的文件进行使用。用户需根据数据集的结构，正确解析id、问题类型、问题文本、图像序列、选项和答案等字段，以实现对模型的准确评估。

背景与挑战

背景概述

Mantis-Eval数据集，由TIGER-Lab团队精心策划，旨在评估多模态语言模型在多图像推理任务上的能力。该数据集的创建，标志着对于多模态理解领域的一个重要贡献，其研究背景可追溯至2024年，由Dongfu Jiang等研究人员共同完成。该数据集的核心研究问题是提升模型在处理多图像情景下的推理能力，它不仅提供了217个经过人工标注的挑战性问题，而且通过其 leaderboard展示了不同模型在该任务上的表现，对相关领域的研究产生了显著影响。

当前挑战

Mantis-Eval数据集所面临的挑战主要涉及两个方面：一是如何准确捕捉并处理图像间的复杂关系，这要求模型具备高度的多模态理解能力；二是构建过程中，如何确保问题集的多样性和难度，以及如何有效标注数据，确保数据质量。此外，多图像推理任务的评估标准制定也是一个挑战，需要确保评价体系的公正性和准确性。

常用场景

经典使用场景

在探索多模态语言模型处理多图像推理任务的能力时，Mantis-Eval数据集提供了217个人类注释的复杂问题案例。该数据集的经典使用场景在于评估模型在理解图像序列并据此做出推理决策方面的表现，尤其关注模型如何处理涉及多步骤逻辑推理的复杂问题。

衍生相关工作

Mantis-Eval数据集的发布促进了相关领域的研究工作，如MANTIS: Interleaved Multi-Image Instruction Tuning等。这些工作基于该数据集进一步探索了如何通过指令调整来增强模型在处理多图像推理任务时的性能，推动了多模态学习和理解的发展。

数据集最近研究