MMEB-eval
收藏Hugging Face2024-10-11 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/TIGER-Lab/MMEB-eval
下载链接
链接失效反馈官方服务:
资源简介:
大规模多模态嵌入基准(MMEB)数据集旨在评估多模态嵌入模型的能力。该基准涵盖4个元任务和36个精心挑选的评估数据集。每个数据集包含1000个用于评估的示例,每个示例包含一个查询和一组目标,查询和目标可以是图像和文本的组合。第一个目标是真实答案。数据集的许可证为MIT,语言为英语,标签为排名,大小类别为10K<n<100K。此外,数据集提供了统计信息和排行榜,以及提交和引用指南。
The Large-scale Multimodal Embedding Benchmark (MMEB) dataset is designed to evaluate the capabilities of multimodal embedding models. This benchmark encompasses 4 meta-tasks and 36 carefully selected evaluation datasets. Each dataset includes 1,000 evaluation samples, with each sample containing a query and a set of targets. Both the query and the targets can be combinations of images and text. The first target serves as the ground-truth answer. The dataset is licensed under MIT License, uses English as its language, adopts ranking as its annotation label, and falls into the size category of 10K < n < 100K. Additionally, the dataset provides statistical information, leaderboards, as well as submission and citation guidelines.
提供机构:
TIGER-Lab
创建时间:
2024-10-08
原始信息汇总
Massive Multimodal Embedding Benchmark (MMEB)
概述
MMEB 是一个大规模多模态嵌入基准数据集,包含 36 个数据集,用于评估多模态嵌入模型的能力。每个数据集包含 1000 个测试样本,每个样本包含一个查询和一组目标,查询和目标可以是图像和文本的任意组合。
数据集配置
数据集列表
- A-OKVQA
- CIFAR-100
- CIRR
- ChartQA
- Country211
- DocVQA
- EDIS
- FashionIQ
- GQA
- HatefulMemes
- ImageNet-1K
- ImageNet-A
- ImageNet-R
- InfographicsVQA
- MSCOCO
- MSCOCO_i2t
- MSCOCO_t2i
- N24News
- NIGHTS
- OK-VQA
- OVEN
- ObjectNet
- Place365
- RefCOCO
- RefCOCO-Matching
- SUN397
- ScienceQA
- TextVQA
- VOC2007
- VisDial
- Visual7W
- Visual7W-Pointing
- VisualNews_i2t
- VisualNews_t2i
- VizWiz
- WebQA
- Wiki-SS-NQ
数据集特征
每个数据集包含以下特征:
qry_text: 查询文本,类型为字符串。qry_img_path: 查询图像路径,类型为字符串。tgt_text: 目标文本序列,类型为字符串。tgt_img_path: 目标图像路径序列,类型为字符串。
数据集分割
每个数据集仅包含一个测试集分割,包含 1000 个样本。
数据集大小
每个数据集的测试集大小和下载大小如下:
| 数据集名称 | 测试集大小 (bytes) | 下载大小 (bytes) |
|---|---|---|
| A-OKVQA | 14048199 | 1168340 |
| CIFAR-100 | 1519890 | 20544 |
| CIRR | 70162098 | 1565489 |
| ChartQA | 14354641 | 1434448 |
| Country211 | 3678000 | 31556 |
| DocVQA | 23044459 | 1734476 |
| EDIS | 184208708 | 3350382 |
| FashionIQ | 71169665 | 1729457 |
| GQA | 40809641 | 1764457 |
| HatefulMemes | 184890 | 9972 |
| ImageNet-1K | 28773890 | 185019 |
| ImageNet-A | 28772890 | 147780 |
| ImageNet-R | 3456890 | 23656 |
| InfographicsVQA | 19114439 | 1439837 |
| MSCOCO | 97759085 | 1681753 |
| MSCOCO_i2t | 60201740 | 1785583 |
| MSCOCO_t2i | 87127008 | 1296167 |
| N24News | 630658 | 110698 |
| NIGHTS | 75116000 | 1528646 |
| OK-VQA | 15332578 | 1564823 |
| OVEN | 717934263 | 406792141 |
| ObjectNet | 2036000 | 27132 |
| Place365 | 7045000 | 89866 |
| RefCOCO | 96493941 | 1858145 |
| RefCOCO-Matching | 145712476 | 2879385 |
| SUN397 | 7990000 | 118447 |
| ScienceQA | 23870406 | 958782 |
| TextVQA | 17435986 | 1571656 |
| VOC2007 | 368000 | 13813 |
| VisDial | 67989850 | 1730820 |
| Visual7W | 22047066 | 1564788 |
| Visual7W-Pointing | 94906832 | 1299380 |
| VisualNews_i2t | 118329649 | 81491360 |
| VisualNews_t2i | 97176206 | 1763677 |
| VizWiz | 20550246 | 1425789 |
| WebQA | 197701404 | 3257136 |
| Wiki-SS-NQ | 74583207 | 1900579 |
许可证
MIT 许可证
语言
英语
标签
- 排名
数据集名称
MMEB
数据集大小分类
10K < n < 100K
搜集汇总
数据集介绍

构建方式
MMEB-eval数据集的构建基于多模态嵌入模型的评估需求,涵盖了4个元任务和36个精心挑选的数据集。每个数据集包含1000个评估样本,每个样本由查询和一组目标组成,查询和目标可以是图像、文本或两者的组合。数据集的构建旨在全面评估多模态嵌入模型在不同任务中的表现,确保其多样性和广泛性。
特点
MMEB-eval数据集的特点在于其广泛覆盖的多模态任务和数据集,涵盖了从视觉问答到图像-文本匹配等多种任务类型。每个数据集均经过精心筛选,确保其代表性和挑战性。数据集中的每个样本包含查询和多个目标,其中第一个目标为真实答案,其余为干扰项,这种设计有助于评估模型在复杂场景下的准确性和鲁棒性。
使用方法
MMEB-eval数据集的使用方法较为直观,用户可以通过加载数据集中的测试集进行评估。每个样本的查询和目标以图像和文本的形式呈现,用户需根据查询从多个目标中识别出真实答案。数据集支持多种多模态嵌入模型的评估,用户可以通过提交模型结果至官方提供的排行榜,与其他模型进行性能对比。
背景与挑战
背景概述
MMEB-eval数据集是由Ziyan Jiang等研究人员于2024年提出的,旨在评估多模态嵌入模型的能力。该数据集涵盖了4个元任务和36个精心挑选的子数据集,广泛用于测试模型在图像与文本结合任务中的表现。其核心研究问题在于如何通过大规模的多模态数据,提升模型在跨模态任务中的泛化能力和鲁棒性。该数据集的发布为多模态学习领域提供了重要的基准测试工具,推动了视觉-语言模型的研究进展。
当前挑战
MMEB-eval数据集面临的挑战主要集中在两个方面。首先,多模态数据的异构性使得模型在处理图像与文本的联合表示时面临巨大挑战,尤其是在跨模态对齐和语义理解方面。其次,数据集的构建过程中需要确保数据的多样性和代表性,涵盖不同领域的任务,这对数据采集和标注提出了极高的要求。此外,如何设计有效的评估指标以全面衡量模型在多模态任务中的性能,也是该数据集需要解决的关键问题。
常用场景
经典使用场景
MMEB-eval数据集广泛应用于多模态嵌入模型的评估任务中,特别是在视觉-语言模型的性能测试中。通过提供包含图像和文本的查询与目标对,该数据集能够有效评估模型在处理复杂多模态数据时的表现。其经典使用场景包括图像-文本匹配、文本-图像生成以及跨模态检索等任务,为研究者提供了一个标准化的评估平台。
实际应用
在实际应用中,MMEB-eval数据集被广泛用于智能问答系统、图像检索系统以及跨模态推荐系统等领域。例如,在智能问答系统中,模型可以通过该数据集进行训练和评估,以提升对图像和文本联合理解的能力。此外,该数据集还可用于优化搜索引擎中的跨模态检索功能,提升用户体验。
衍生相关工作
MMEB-eval数据集衍生了许多经典的多模态研究工作,特别是在视觉-语言模型的训练与评估方面。基于该数据集的研究成果包括VLM2Vec等模型,这些模型通过大规模多模态嵌入任务的训练,显著提升了跨模态任务的性能。此外,该数据集还推动了多模态嵌入模型在学术和工业界的广泛应用,成为该领域的重要参考基准。
以上内容由遇见数据集搜集并总结生成



