TIGER-Lab/M-BEIR

Name: TIGER-Lab/M-BEIR
Creator: TIGER-Lab
Published: 2024-08-07 15:15:33
License: 暂无描述

Hugging Face2024-08-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TIGER-Lab/M-BEIR

下载链接

链接失效反馈

官方服务：

资源简介：

M-BEIR（多模态指令检索基准）是一个综合性的大规模检索基准，旨在训练和评估统一的多模态检索模型（UniIR模型）。该基准包含八个多模态检索任务和十个来自不同领域和来源的数据集。每个任务都附有人工编写的指令，总共包含150万查询和560万检索候选。数据集结构包括查询数据、候选池、指令、Qrels和图像。

提供机构：

TIGER-Lab

原始信息汇总

数据集概述

M-BEIR，即Multimodal BEnchmark for Instructed Retrieval，是一个综合的大型检索基准，旨在训练和评估统一的跨模态检索模型（UniIR模型）。M-BEIR基准包含八个跨模态检索任务和来自多个领域和来源的十个数据集。每个任务都附有人工编写的指令，总共包含150万个查询和560万个检索候选池。

数据集结构概述

M-BEIR数据集分为五个主要部分：查询数据、候选池、指令、Qrels和图像。

查询数据

查询数据的目录结构如下：

query/ │ ├── train/ │ ├── mbeir_cirr_train.jsonl │ ├── mbeir_edis_train.jsonl │ ... ├── union_train/ │ └── mbeir_union_up_train.jsonl ├── val/ │ ├── mbeir_visualnews_task0_val.jsonl │ ├── mbeir_visualnews_task3_val.jsonl │ ... └── test/ ├── mbeir_visualnews_task0_test.jsonl ├── mbeir_visualnews_task3_test.jsonl ...

train：包含8个不同数据集的训练数据，格式为M-BEIR风格。
mbeir_union_up_train.jsonl：这是专门为UniIR模型设计的批次对比训练的默认训练数据，聚合了训练目录中的所有数据，并对相对较小的数据集进行了上采样以平衡训练过程。
val：包含按任务组织的验证查询的单独文件。
test：包含按任务组织的测试查询的单独文件。

每个M-BEIR查询实例至少有一个正候选数据，可能没有负候选数据。每个查询JSON对象的结构如下： json { "qid": "唯一标识符，格式为{dataset_id}:{query_id}", "query_txt": "查询的文本部分", "query_img_path": "关联查询图像的文件路径", "query_modality": "查询的模态类型（文本、图像或文本,图像）", "query_src_content": "原始数据集中的附加内容，通过json.dumps()表示为字符串", "pos_cand_list": [ { "did": "唯一标识符，格式为{dataset_id}:{doc_id}" } // ...更多正候选 ], "neg_cand_list": [ { "did": "唯一标识符，格式为{dataset_id}:{doc_id}" } // ...更多负候选 ] }

候选池

候选池包含查询的潜在匹配文档。

M-BEIR_5.6M

在全局目录中，默认检索设置要求模型从包含各种模态和领域的异构池中检索正候选。M-BEIR的全局候选池包含560万个候选，包括所有任务和数据集的检索语料库。

M-BEIR_local

在本地目录中，我们提供了数据集任务特定的池作为M-BEIR_local。数据集任务特定的池包含来自原始数据集的同质候选。

候选池的目录结构如下：

cand_pool/ │ ├── global/ │ ├── mbeir_union_val_cand_pool.jsonl │ └── mbeir_union_test_cand_pool.jsonl │ └── local/ ├── mbeir_visualnews_task0_cand_pool.jsonl ├── mbeir_visualnews_task3_cand_pool.jsonl ...

每个候选JSON对象的结构如下： json { "did": "文档的唯一标识符，格式为{dataset_id}:{doc_id}", "txt": "候选文档的文本内容", "img_path": "候选文档图像的文件路径", "modality": "候选的模态类型（例如，文本、图像或文本,图像）", "src_content": "原始数据集中的附加内容，通过json.dumps()表示为字符串" }

指令

query_instructions.tsv包含在UniIR框架内的人工授权指令。每个任务都附有四个人工编写的指令。详细使用方法请参考GitHub Repo。

Qrels

在qrels目录中，您将找到验证集和测试集的qrels。这些文件用于评估UniIR模型。详细信息请参考GitHub Repo。

搜集汇总

数据集介绍

构建方式

M-BEIR数据集的构建，是基于多模态检索任务的需求，整合了来自不同领域和来源的十个数据集。数据集结构划分为查询数据、候选池、指令、Qrels和图像五大主要部分，其中查询数据和候选池均按照特定的目录结构进行了组织。每个查询实例包含至少一个正候选数据，可能没有负候选数据，正负候选数据均以JSON对象的形式存储。

特点

M-BEIR数据集的特点在于其多元化的任务类型和大规模的数据量。它包含了八种多模态检索任务，共计150万条查询和560万条检索候选，覆盖了文本检索、文本到图像、图像到文本以及视觉问答等任务。此外，数据集还提供了人类编写的指令，以及用于评估UniIR模型的Qrels文件。

使用方法

使用M-BEIR数据集前，需要安装Git Large File Storage (LFS)以处理大型数据文件。之后，通过克隆数据集仓库来下载数据集。下载完成后，需要解压图像文件。数据集的使用包括数据加载和评估流程，详细步骤和指南可在UniIR的GitHub仓库中找到。

背景与挑战

背景概述

M-BEIR数据集，全称为Multimodal BE benchmark for Instructioned Retrieval，是由TIGER-Lab团队开发的一种大规模的多模态检索基准。该数据集旨在训练和评估统一的多模态检索模型（UniIR模型），并包含八个多模态检索任务和来自不同领域和来源的十个数据集。每个任务都配备了由人类编写的指令，总共包含150万条查询和560万条检索候选者。M-BEIR数据集的创建，对多模态检索领域的研究具有重要的推动作用，为相关研究提供了丰富的实验资源。

当前挑战

M-BEIR数据集面临的挑战主要在于：1) 如何在多模态检索任务中，有效地融合文本和图像信息；2) 处理不同数据集之间的异质性，以及如何构建一个能够涵盖各种模态和领域的全局候选池；3) 在训练过程中，如何平衡不同大小数据集的贡献，以及如何为UniIR模型提供合适的训练数据；4) 对于多模态检索的评价标准和方法仍需进一步探索和完善。这些挑战对于提升多模态检索模型的性能和泛化能力至关重要。

常用场景

经典使用场景

在当前多模态检索研究的热潮中，M-BEIR数据集以其全面性及多样性，成为训练与评估统一多模态检索模型的经典资源。该数据集涵盖了文本检索、文本到图像、图像到文本以及视觉问答等多种任务，使得研究者在统一的框架下，能够对模型进行全方位的测试与优化。

实际应用

在实际应用场景中，M-BEIR数据集的应用范围广泛，可服务于搜索引擎优化、智能推荐系统、内容审核以及多模态交互式机器人等领域。其强大的检索和匹配能力，为用户提供了更为精准和高效的搜索体验，从而在信息过载的时代背景下，显著提升了信息检索的实用价值。

衍生相关工作

基于M-BEIR数据集，学术界已经衍生出一系列经典工作，如UniIR模型的训练与评估、多模态检索任务的基准测试等。这些工作不仅推动了多模态检索技术的进步，也为后续研究提供了丰富的实验基础和比较标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集