five

MMEB-eval|多模态学习数据集|模型评估数据集

收藏
huggingface2024-10-11 更新2024-12-12 收录
多模态学习
模型评估
下载链接:
https://huggingface.co/datasets/TIGER-Lab/MMEB-eval
下载链接
链接失效反馈
资源简介:
大规模多模态嵌入基准(MMEB)数据集旨在评估多模态嵌入模型的能力。该基准涵盖4个元任务和36个精心挑选的评估数据集。每个数据集包含1000个用于评估的示例,每个示例包含一个查询和一组目标,查询和目标可以是图像和文本的组合。第一个目标是真实答案。数据集的许可证为MIT,语言为英语,标签为排名,大小类别为10K<n<100K。此外,数据集提供了统计信息和排行榜,以及提交和引用指南。
提供机构:
TIGER-Lab
创建时间:
2024-10-08
原始信息汇总

Massive Multimodal Embedding Benchmark (MMEB)

概述

MMEB 是一个大规模多模态嵌入基准数据集,包含 36 个数据集,用于评估多模态嵌入模型的能力。每个数据集包含 1000 个测试样本,每个样本包含一个查询和一组目标,查询和目标可以是图像和文本的任意组合。

数据集配置

数据集列表

  • A-OKVQA
  • CIFAR-100
  • CIRR
  • ChartQA
  • Country211
  • DocVQA
  • EDIS
  • FashionIQ
  • GQA
  • HatefulMemes
  • ImageNet-1K
  • ImageNet-A
  • ImageNet-R
  • InfographicsVQA
  • MSCOCO
  • MSCOCO_i2t
  • MSCOCO_t2i
  • N24News
  • NIGHTS
  • OK-VQA
  • OVEN
  • ObjectNet
  • Place365
  • RefCOCO
  • RefCOCO-Matching
  • SUN397
  • ScienceQA
  • TextVQA
  • VOC2007
  • VisDial
  • Visual7W
  • Visual7W-Pointing
  • VisualNews_i2t
  • VisualNews_t2i
  • VizWiz
  • WebQA
  • Wiki-SS-NQ

数据集特征

每个数据集包含以下特征:

  • qry_text: 查询文本,类型为字符串。
  • qry_img_path: 查询图像路径,类型为字符串。
  • tgt_text: 目标文本序列,类型为字符串。
  • tgt_img_path: 目标图像路径序列,类型为字符串。

数据集分割

每个数据集仅包含一个测试集分割,包含 1000 个样本。

数据集大小

每个数据集的测试集大小和下载大小如下:

数据集名称 测试集大小 (bytes) 下载大小 (bytes)
A-OKVQA 14048199 1168340
CIFAR-100 1519890 20544
CIRR 70162098 1565489
ChartQA 14354641 1434448
Country211 3678000 31556
DocVQA 23044459 1734476
EDIS 184208708 3350382
FashionIQ 71169665 1729457
GQA 40809641 1764457
HatefulMemes 184890 9972
ImageNet-1K 28773890 185019
ImageNet-A 28772890 147780
ImageNet-R 3456890 23656
InfographicsVQA 19114439 1439837
MSCOCO 97759085 1681753
MSCOCO_i2t 60201740 1785583
MSCOCO_t2i 87127008 1296167
N24News 630658 110698
NIGHTS 75116000 1528646
OK-VQA 15332578 1564823
OVEN 717934263 406792141
ObjectNet 2036000 27132
Place365 7045000 89866
RefCOCO 96493941 1858145
RefCOCO-Matching 145712476 2879385
SUN397 7990000 118447
ScienceQA 23870406 958782
TextVQA 17435986 1571656
VOC2007 368000 13813
VisDial 67989850 1730820
Visual7W 22047066 1564788
Visual7W-Pointing 94906832 1299380
VisualNews_i2t 118329649 81491360
VisualNews_t2i 97176206 1763677
VizWiz 20550246 1425789
WebQA 197701404 3257136
Wiki-SS-NQ 74583207 1900579

许可证

MIT 许可证

语言

英语

标签

  • 排名

数据集名称

MMEB

数据集大小分类

10K < n < 100K

AI搜集汇总
数据集介绍
main_image_url
构建方式
MMEB-eval数据集的构建基于多模态嵌入模型的评估需求,涵盖了4个元任务和36个精心挑选的数据集。每个数据集包含1000个评估样本,每个样本由查询和一组目标组成,查询和目标可以是图像、文本或两者的组合。数据集的构建旨在全面评估多模态嵌入模型在不同任务中的表现,确保其多样性和广泛性。
特点
MMEB-eval数据集的特点在于其广泛覆盖的多模态任务和数据集,涵盖了从视觉问答到图像-文本匹配等多种任务类型。每个数据集均经过精心筛选,确保其代表性和挑战性。数据集中的每个样本包含查询和多个目标,其中第一个目标为真实答案,其余为干扰项,这种设计有助于评估模型在复杂场景下的准确性和鲁棒性。
使用方法
MMEB-eval数据集的使用方法较为直观,用户可以通过加载数据集中的测试集进行评估。每个样本的查询和目标以图像和文本的形式呈现,用户需根据查询从多个目标中识别出真实答案。数据集支持多种多模态嵌入模型的评估,用户可以通过提交模型结果至官方提供的排行榜,与其他模型进行性能对比。
背景与挑战
背景概述
MMEB-eval数据集是由Ziyan Jiang等研究人员于2024年提出的,旨在评估多模态嵌入模型的能力。该数据集涵盖了4个元任务和36个精心挑选的子数据集,广泛用于测试模型在图像与文本结合任务中的表现。其核心研究问题在于如何通过大规模的多模态数据,提升模型在跨模态任务中的泛化能力和鲁棒性。该数据集的发布为多模态学习领域提供了重要的基准测试工具,推动了视觉-语言模型的研究进展。
当前挑战
MMEB-eval数据集面临的挑战主要集中在两个方面。首先,多模态数据的异构性使得模型在处理图像与文本的联合表示时面临巨大挑战,尤其是在跨模态对齐和语义理解方面。其次,数据集的构建过程中需要确保数据的多样性和代表性,涵盖不同领域的任务,这对数据采集和标注提出了极高的要求。此外,如何设计有效的评估指标以全面衡量模型在多模态任务中的性能,也是该数据集需要解决的关键问题。
常用场景
经典使用场景
MMEB-eval数据集广泛应用于多模态嵌入模型的评估任务中,特别是在视觉-语言模型的性能测试中。通过提供包含图像和文本的查询与目标对,该数据集能够有效评估模型在处理复杂多模态数据时的表现。其经典使用场景包括图像-文本匹配、文本-图像生成以及跨模态检索等任务,为研究者提供了一个标准化的评估平台。
实际应用
在实际应用中,MMEB-eval数据集被广泛用于智能问答系统、图像检索系统以及跨模态推荐系统等领域。例如,在智能问答系统中,模型可以通过该数据集进行训练和评估,以提升对图像和文本联合理解的能力。此外,该数据集还可用于优化搜索引擎中的跨模态检索功能,提升用户体验。
衍生相关工作
MMEB-eval数据集衍生了许多经典的多模态研究工作,特别是在视觉-语言模型的训练与评估方面。基于该数据集的研究成果包括VLM2Vec等模型,这些模型通过大规模多模态嵌入任务的训练,显著提升了跨模态任务的性能。此外,该数据集还推动了多模态嵌入模型在学术和工业界的广泛应用,成为该领域的重要参考基准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

FAOSTAT Forestry

FAOSTAT Forestry数据集包含了全球森林资源的相关统计数据,涵盖了森林面积、木材产量、森林管理等多个方面。该数据集提供了详细的国别数据,帮助用户了解全球森林资源的现状和变化趋势。

www.fao.org 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录