five

MMEB-eval

收藏
Hugging Face2024-10-11 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/MMEB-eval
下载链接
链接失效反馈
官方服务:
资源简介:
大规模多模态嵌入基准(MMEB)数据集旨在评估多模态嵌入模型的能力。该基准涵盖4个元任务和36个精心挑选的评估数据集。每个数据集包含1000个用于评估的示例,每个示例包含一个查询和一组目标,查询和目标可以是图像和文本的组合。第一个目标是真实答案。数据集的许可证为MIT,语言为英语,标签为排名,大小类别为10K<n<100K。此外,数据集提供了统计信息和排行榜,以及提交和引用指南。

The Large-scale Multimodal Embedding Benchmark (MMEB) dataset is designed to evaluate the capabilities of multimodal embedding models. This benchmark encompasses 4 meta-tasks and 36 carefully selected evaluation datasets. Each dataset includes 1,000 evaluation samples, with each sample containing a query and a set of targets. Both the query and the targets can be combinations of images and text. The first target serves as the ground-truth answer. The dataset is licensed under MIT License, uses English as its language, adopts ranking as its annotation label, and falls into the size category of 10K < n < 100K. Additionally, the dataset provides statistical information, leaderboards, as well as submission and citation guidelines.
提供机构:
TIGER-Lab
创建时间:
2024-10-08
原始信息汇总

Massive Multimodal Embedding Benchmark (MMEB)

概述

MMEB 是一个大规模多模态嵌入基准数据集,包含 36 个数据集,用于评估多模态嵌入模型的能力。每个数据集包含 1000 个测试样本,每个样本包含一个查询和一组目标,查询和目标可以是图像和文本的任意组合。

数据集配置

数据集列表

  • A-OKVQA
  • CIFAR-100
  • CIRR
  • ChartQA
  • Country211
  • DocVQA
  • EDIS
  • FashionIQ
  • GQA
  • HatefulMemes
  • ImageNet-1K
  • ImageNet-A
  • ImageNet-R
  • InfographicsVQA
  • MSCOCO
  • MSCOCO_i2t
  • MSCOCO_t2i
  • N24News
  • NIGHTS
  • OK-VQA
  • OVEN
  • ObjectNet
  • Place365
  • RefCOCO
  • RefCOCO-Matching
  • SUN397
  • ScienceQA
  • TextVQA
  • VOC2007
  • VisDial
  • Visual7W
  • Visual7W-Pointing
  • VisualNews_i2t
  • VisualNews_t2i
  • VizWiz
  • WebQA
  • Wiki-SS-NQ

数据集特征

每个数据集包含以下特征:

  • qry_text: 查询文本,类型为字符串。
  • qry_img_path: 查询图像路径,类型为字符串。
  • tgt_text: 目标文本序列,类型为字符串。
  • tgt_img_path: 目标图像路径序列,类型为字符串。

数据集分割

每个数据集仅包含一个测试集分割,包含 1000 个样本。

数据集大小

每个数据集的测试集大小和下载大小如下:

数据集名称 测试集大小 (bytes) 下载大小 (bytes)
A-OKVQA 14048199 1168340
CIFAR-100 1519890 20544
CIRR 70162098 1565489
ChartQA 14354641 1434448
Country211 3678000 31556
DocVQA 23044459 1734476
EDIS 184208708 3350382
FashionIQ 71169665 1729457
GQA 40809641 1764457
HatefulMemes 184890 9972
ImageNet-1K 28773890 185019
ImageNet-A 28772890 147780
ImageNet-R 3456890 23656
InfographicsVQA 19114439 1439837
MSCOCO 97759085 1681753
MSCOCO_i2t 60201740 1785583
MSCOCO_t2i 87127008 1296167
N24News 630658 110698
NIGHTS 75116000 1528646
OK-VQA 15332578 1564823
OVEN 717934263 406792141
ObjectNet 2036000 27132
Place365 7045000 89866
RefCOCO 96493941 1858145
RefCOCO-Matching 145712476 2879385
SUN397 7990000 118447
ScienceQA 23870406 958782
TextVQA 17435986 1571656
VOC2007 368000 13813
VisDial 67989850 1730820
Visual7W 22047066 1564788
Visual7W-Pointing 94906832 1299380
VisualNews_i2t 118329649 81491360
VisualNews_t2i 97176206 1763677
VizWiz 20550246 1425789
WebQA 197701404 3257136
Wiki-SS-NQ 74583207 1900579

许可证

MIT 许可证

语言

英语

标签

  • 排名

数据集名称

MMEB

数据集大小分类

10K < n < 100K

搜集汇总
数据集介绍
main_image_url
构建方式
MMEB-eval数据集的构建基于多模态嵌入模型的评估需求,涵盖了4个元任务和36个精心挑选的数据集。每个数据集包含1000个评估样本,每个样本由查询和一组目标组成,查询和目标可以是图像、文本或两者的组合。数据集的构建旨在全面评估多模态嵌入模型在不同任务中的表现,确保其多样性和广泛性。
特点
MMEB-eval数据集的特点在于其广泛覆盖的多模态任务和数据集,涵盖了从视觉问答到图像-文本匹配等多种任务类型。每个数据集均经过精心筛选,确保其代表性和挑战性。数据集中的每个样本包含查询和多个目标,其中第一个目标为真实答案,其余为干扰项,这种设计有助于评估模型在复杂场景下的准确性和鲁棒性。
使用方法
MMEB-eval数据集的使用方法较为直观,用户可以通过加载数据集中的测试集进行评估。每个样本的查询和目标以图像和文本的形式呈现,用户需根据查询从多个目标中识别出真实答案。数据集支持多种多模态嵌入模型的评估,用户可以通过提交模型结果至官方提供的排行榜,与其他模型进行性能对比。
背景与挑战
背景概述
MMEB-eval数据集是由Ziyan Jiang等研究人员于2024年提出的,旨在评估多模态嵌入模型的能力。该数据集涵盖了4个元任务和36个精心挑选的子数据集,广泛用于测试模型在图像与文本结合任务中的表现。其核心研究问题在于如何通过大规模的多模态数据,提升模型在跨模态任务中的泛化能力和鲁棒性。该数据集的发布为多模态学习领域提供了重要的基准测试工具,推动了视觉-语言模型的研究进展。
当前挑战
MMEB-eval数据集面临的挑战主要集中在两个方面。首先,多模态数据的异构性使得模型在处理图像与文本的联合表示时面临巨大挑战,尤其是在跨模态对齐和语义理解方面。其次,数据集的构建过程中需要确保数据的多样性和代表性,涵盖不同领域的任务,这对数据采集和标注提出了极高的要求。此外,如何设计有效的评估指标以全面衡量模型在多模态任务中的性能,也是该数据集需要解决的关键问题。
常用场景
经典使用场景
MMEB-eval数据集广泛应用于多模态嵌入模型的评估任务中,特别是在视觉-语言模型的性能测试中。通过提供包含图像和文本的查询与目标对,该数据集能够有效评估模型在处理复杂多模态数据时的表现。其经典使用场景包括图像-文本匹配、文本-图像生成以及跨模态检索等任务,为研究者提供了一个标准化的评估平台。
实际应用
在实际应用中,MMEB-eval数据集被广泛用于智能问答系统、图像检索系统以及跨模态推荐系统等领域。例如,在智能问答系统中,模型可以通过该数据集进行训练和评估,以提升对图像和文本联合理解的能力。此外,该数据集还可用于优化搜索引擎中的跨模态检索功能,提升用户体验。
衍生相关工作
MMEB-eval数据集衍生了许多经典的多模态研究工作,特别是在视觉-语言模型的训练与评估方面。基于该数据集的研究成果包括VLM2Vec等模型,这些模型通过大规模多模态嵌入任务的训练,显著提升了跨模态任务的性能。此外,该数据集还推动了多模态嵌入模型在学术和工业界的广泛应用,成为该领域的重要参考基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作