TIGER-Lab/M-BEIR|多模态检索数据集|信息检索数据集
收藏数据集概述
M-BEIR,即Multimodal BEnchmark for Instructed Retrieval,是一个综合的大型检索基准,旨在训练和评估统一的跨模态检索模型(UniIR模型)。M-BEIR基准包含八个跨模态检索任务和来自多个领域和来源的十个数据集。每个任务都附有人工编写的指令,总共包含150万个查询和560万个检索候选池。
数据集结构概述
M-BEIR数据集分为五个主要部分:查询数据、候选池、指令、Qrels和图像。
查询数据
查询数据的目录结构如下:
query/ │ ├── train/ │ ├── mbeir_cirr_train.jsonl │ ├── mbeir_edis_train.jsonl │ ... ├── union_train/ │ └── mbeir_union_up_train.jsonl ├── val/ │ ├── mbeir_visualnews_task0_val.jsonl │ ├── mbeir_visualnews_task3_val.jsonl │ ... └── test/ ├── mbeir_visualnews_task0_test.jsonl ├── mbeir_visualnews_task3_test.jsonl ...
train
:包含8个不同数据集的训练数据,格式为M-BEIR风格。mbeir_union_up_train.jsonl
:这是专门为UniIR模型设计的批次对比训练的默认训练数据,聚合了训练目录中的所有数据,并对相对较小的数据集进行了上采样以平衡训练过程。val
:包含按任务组织的验证查询的单独文件。test
:包含按任务组织的测试查询的单独文件。
每个M-BEIR查询实例至少有一个正候选数据,可能没有负候选数据。每个查询JSON对象的结构如下: json { "qid": "唯一标识符,格式为{dataset_id}:{query_id}", "query_txt": "查询的文本部分", "query_img_path": "关联查询图像的文件路径", "query_modality": "查询的模态类型(文本、图像或文本,图像)", "query_src_content": "原始数据集中的附加内容,通过json.dumps()表示为字符串", "pos_cand_list": [ { "did": "唯一标识符,格式为{dataset_id}:{doc_id}" } // ...更多正候选 ], "neg_cand_list": [ { "did": "唯一标识符,格式为{dataset_id}:{doc_id}" } // ...更多负候选 ] }
候选池
候选池包含查询的潜在匹配文档。
M-BEIR_5.6M
在全局目录中,默认检索设置要求模型从包含各种模态和领域的异构池中检索正候选。M-BEIR的全局候选池包含560万个候选,包括所有任务和数据集的检索语料库。
M-BEIR_local
在本地目录中,我们提供了数据集任务特定的池作为M-BEIR_local。数据集任务特定的池包含来自原始数据集的同质候选。
候选池的目录结构如下:
cand_pool/ │ ├── global/ │ ├── mbeir_union_val_cand_pool.jsonl │ └── mbeir_union_test_cand_pool.jsonl │ └── local/ ├── mbeir_visualnews_task0_cand_pool.jsonl ├── mbeir_visualnews_task3_cand_pool.jsonl ...
每个候选JSON对象的结构如下: json { "did": "文档的唯一标识符,格式为{dataset_id}:{doc_id}", "txt": "候选文档的文本内容", "img_path": "候选文档图像的文件路径", "modality": "候选的模态类型(例如,文本、图像或文本,图像)", "src_content": "原始数据集中的附加内容,通过json.dumps()表示为字符串" }
指令
query_instructions.tsv
包含在UniIR框架内的人工授权指令。每个任务都附有四个人工编写的指令。详细使用方法请参考GitHub Repo。
Qrels
在qrels
目录中,您将找到验证集和测试集的qrels。这些文件用于评估UniIR模型。详细信息请参考GitHub Repo。

LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
Subway Dataset
该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。
www.kaggle.com 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录