TIGER-Lab/M-BEIR
收藏数据集概述
M-BEIR,即Multimodal BEnchmark for Instructed Retrieval,是一个综合的大型检索基准,旨在训练和评估统一的跨模态检索模型(UniIR模型)。M-BEIR基准包含八个跨模态检索任务和来自多个领域和来源的十个数据集。每个任务都附有人工编写的指令,总共包含150万个查询和560万个检索候选池。
数据集结构概述
M-BEIR数据集分为五个主要部分:查询数据、候选池、指令、Qrels和图像。
查询数据
查询数据的目录结构如下:
query/ │ ├── train/ │ ├── mbeir_cirr_train.jsonl │ ├── mbeir_edis_train.jsonl │ ... ├── union_train/ │ └── mbeir_union_up_train.jsonl ├── val/ │ ├── mbeir_visualnews_task0_val.jsonl │ ├── mbeir_visualnews_task3_val.jsonl │ ... └── test/ ├── mbeir_visualnews_task0_test.jsonl ├── mbeir_visualnews_task3_test.jsonl ...
train:包含8个不同数据集的训练数据,格式为M-BEIR风格。mbeir_union_up_train.jsonl:这是专门为UniIR模型设计的批次对比训练的默认训练数据,聚合了训练目录中的所有数据,并对相对较小的数据集进行了上采样以平衡训练过程。val:包含按任务组织的验证查询的单独文件。test:包含按任务组织的测试查询的单独文件。
每个M-BEIR查询实例至少有一个正候选数据,可能没有负候选数据。每个查询JSON对象的结构如下: json { "qid": "唯一标识符,格式为{dataset_id}:{query_id}", "query_txt": "查询的文本部分", "query_img_path": "关联查询图像的文件路径", "query_modality": "查询的模态类型(文本、图像或文本,图像)", "query_src_content": "原始数据集中的附加内容,通过json.dumps()表示为字符串", "pos_cand_list": [ { "did": "唯一标识符,格式为{dataset_id}:{doc_id}" } // ...更多正候选 ], "neg_cand_list": [ { "did": "唯一标识符,格式为{dataset_id}:{doc_id}" } // ...更多负候选 ] }
候选池
候选池包含查询的潜在匹配文档。
M-BEIR_5.6M
在全局目录中,默认检索设置要求模型从包含各种模态和领域的异构池中检索正候选。M-BEIR的全局候选池包含560万个候选,包括所有任务和数据集的检索语料库。
M-BEIR_local
在本地目录中,我们提供了数据集任务特定的池作为M-BEIR_local。数据集任务特定的池包含来自原始数据集的同质候选。
候选池的目录结构如下:
cand_pool/ │ ├── global/ │ ├── mbeir_union_val_cand_pool.jsonl │ └── mbeir_union_test_cand_pool.jsonl │ └── local/ ├── mbeir_visualnews_task0_cand_pool.jsonl ├── mbeir_visualnews_task3_cand_pool.jsonl ...
每个候选JSON对象的结构如下: json { "did": "文档的唯一标识符,格式为{dataset_id}:{doc_id}", "txt": "候选文档的文本内容", "img_path": "候选文档图像的文件路径", "modality": "候选的模态类型(例如,文本、图像或文本,图像)", "src_content": "原始数据集中的附加内容,通过json.dumps()表示为字符串" }
指令
query_instructions.tsv包含在UniIR框架内的人工授权指令。每个任务都附有四个人工编写的指令。详细使用方法请参考GitHub Repo。
Qrels
在qrels目录中,您将找到验证集和测试集的qrels。这些文件用于评估UniIR模型。详细信息请参考GitHub Repo。




