MMEB-eval

Name: MMEB-eval
Creator: TIGER-Lab
Published: 2024-10-11 10:30:01
License: 暂无描述

Hugging Face2024-10-11 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/TIGER-Lab/MMEB-eval

下载链接

链接失效反馈

官方服务：

资源简介：

大规模多模态嵌入基准（MMEB）数据集旨在评估多模态嵌入模型的能力。该基准涵盖4个元任务和36个精心挑选的评估数据集。每个数据集包含1000个用于评估的示例，每个示例包含一个查询和一组目标，查询和目标可以是图像和文本的组合。第一个目标是真实答案。数据集的许可证为MIT，语言为英语，标签为排名，大小类别为10K<n<100K。此外，数据集提供了统计信息和排行榜，以及提交和引用指南。

The Large-scale Multimodal Embedding Benchmark (MMEB) dataset is designed to evaluate the capabilities of multimodal embedding models. This benchmark encompasses 4 meta-tasks and 36 carefully selected evaluation datasets. Each dataset includes 1,000 evaluation samples, with each sample containing a query and a set of targets. Both the query and the targets can be combinations of images and text. The first target serves as the ground-truth answer. The dataset is licensed under MIT License, uses English as its language, adopts ranking as its annotation label, and falls into the size category of 10K < n < 100K. Additionally, the dataset provides statistical information, leaderboards, as well as submission and citation guidelines.

提供机构：

TIGER-Lab

创建时间：

2024-10-08

原始信息汇总

Massive Multimodal Embedding Benchmark (MMEB)

概述

MMEB 是一个大规模多模态嵌入基准数据集，包含 36 个数据集，用于评估多模态嵌入模型的能力。每个数据集包含 1000 个测试样本，每个样本包含一个查询和一组目标，查询和目标可以是图像和文本的任意组合。

数据集配置

数据集列表

A-OKVQA
CIFAR-100
CIRR
ChartQA
Country211
DocVQA
EDIS
FashionIQ
GQA
HatefulMemes
ImageNet-1K
ImageNet-A
ImageNet-R
InfographicsVQA
MSCOCO
MSCOCO_i2t
MSCOCO_t2i
N24News
NIGHTS
OK-VQA
OVEN
ObjectNet
Place365
RefCOCO
RefCOCO-Matching
SUN397
ScienceQA
TextVQA
VOC2007
VisDial
Visual7W
Visual7W-Pointing
VisualNews_i2t
VisualNews_t2i
VizWiz
WebQA
Wiki-SS-NQ

数据集特征

每个数据集包含以下特征：

qry_text: 查询文本，类型为字符串。
qry_img_path: 查询图像路径，类型为字符串。
tgt_text: 目标文本序列，类型为字符串。
tgt_img_path: 目标图像路径序列，类型为字符串。

数据集分割

每个数据集仅包含一个测试集分割，包含 1000 个样本。

数据集大小

每个数据集的测试集大小和下载大小如下：

数据集名称	测试集大小 (bytes)	下载大小 (bytes)
A-OKVQA	14048199	1168340
CIFAR-100	1519890	20544
CIRR	70162098	1565489
ChartQA	14354641	1434448
Country211	3678000	31556
DocVQA	23044459	1734476
EDIS	184208708	3350382
FashionIQ	71169665	1729457
GQA	40809641	1764457
HatefulMemes	184890	9972
ImageNet-1K	28773890	185019
ImageNet-A	28772890	147780
ImageNet-R	3456890	23656
InfographicsVQA	19114439	1439837
MSCOCO	97759085	1681753
MSCOCO_i2t	60201740	1785583
MSCOCO_t2i	87127008	1296167
N24News	630658	110698
NIGHTS	75116000	1528646
OK-VQA	15332578	1564823
OVEN	717934263	406792141
ObjectNet	2036000	27132
Place365	7045000	89866
RefCOCO	96493941	1858145
RefCOCO-Matching	145712476	2879385
SUN397	7990000	118447
ScienceQA	23870406	958782
TextVQA	17435986	1571656
VOC2007	368000	13813
VisDial	67989850	1730820
Visual7W	22047066	1564788
Visual7W-Pointing	94906832	1299380
VisualNews_i2t	118329649	81491360
VisualNews_t2i	97176206	1763677
VizWiz	20550246	1425789
WebQA	197701404	3257136
Wiki-SS-NQ	74583207	1900579

许可证

MIT 许可证

语言

英语

数据集名称

MMEB

数据集大小分类

10K < n < 100K

搜集汇总

数据集介绍

构建方式

MMEB-eval数据集的构建基于多模态嵌入模型的评估需求，涵盖了4个元任务和36个精心挑选的数据集。每个数据集包含1000个评估样本，每个样本由查询和一组目标组成，查询和目标可以是图像、文本或两者的组合。数据集的构建旨在全面评估多模态嵌入模型在不同任务中的表现，确保其多样性和广泛性。

特点

MMEB-eval数据集的特点在于其广泛覆盖的多模态任务和数据集，涵盖了从视觉问答到图像-文本匹配等多种任务类型。每个数据集均经过精心筛选，确保其代表性和挑战性。数据集中的每个样本包含查询和多个目标，其中第一个目标为真实答案，其余为干扰项，这种设计有助于评估模型在复杂场景下的准确性和鲁棒性。

使用方法

MMEB-eval数据集的使用方法较为直观，用户可以通过加载数据集中的测试集进行评估。每个样本的查询和目标以图像和文本的形式呈现，用户需根据查询从多个目标中识别出真实答案。数据集支持多种多模态嵌入模型的评估，用户可以通过提交模型结果至官方提供的排行榜，与其他模型进行性能对比。

背景与挑战

背景概述

MMEB-eval数据集是由Ziyan Jiang等研究人员于2024年提出的，旨在评估多模态嵌入模型的能力。该数据集涵盖了4个元任务和36个精心挑选的子数据集，广泛用于测试模型在图像与文本结合任务中的表现。其核心研究问题在于如何通过大规模的多模态数据，提升模型在跨模态任务中的泛化能力和鲁棒性。该数据集的发布为多模态学习领域提供了重要的基准测试工具，推动了视觉-语言模型的研究进展。

当前挑战

MMEB-eval数据集面临的挑战主要集中在两个方面。首先，多模态数据的异构性使得模型在处理图像与文本的联合表示时面临巨大挑战，尤其是在跨模态对齐和语义理解方面。其次，数据集的构建过程中需要确保数据的多样性和代表性，涵盖不同领域的任务，这对数据采集和标注提出了极高的要求。此外，如何设计有效的评估指标以全面衡量模型在多模态任务中的性能，也是该数据集需要解决的关键问题。

常用场景

经典使用场景

MMEB-eval数据集广泛应用于多模态嵌入模型的评估任务中，特别是在视觉-语言模型的性能测试中。通过提供包含图像和文本的查询与目标对，该数据集能够有效评估模型在处理复杂多模态数据时的表现。其经典使用场景包括图像-文本匹配、文本-图像生成以及跨模态检索等任务，为研究者提供了一个标准化的评估平台。

实际应用

在实际应用中，MMEB-eval数据集被广泛用于智能问答系统、图像检索系统以及跨模态推荐系统等领域。例如，在智能问答系统中，模型可以通过该数据集进行训练和评估，以提升对图像和文本联合理解的能力。此外，该数据集还可用于优化搜索引擎中的跨模态检索功能，提升用户体验。

衍生相关工作

MMEB-eval数据集衍生了许多经典的多模态研究工作，特别是在视觉-语言模型的训练与评估方面。基于该数据集的研究成果包括VLM2Vec等模型，这些模型通过大规模多模态嵌入任务的训练，显著提升了跨模态任务的性能。此外，该数据集还推动了多模态嵌入模型在学术和工业界的广泛应用，成为该领域的重要参考基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集