five

TIGER-Lab/M-BEIR|多模态检索数据集|信息检索数据集

收藏
hugging_face2024-08-07 更新2024-03-04 收录
多模态检索
信息检索
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/M-BEIR
下载链接
链接失效反馈
资源简介:
M-BEIR(多模态指令检索基准)是一个综合性的大规模检索基准,旨在训练和评估统一的多模态检索模型(UniIR模型)。该基准包含八个多模态检索任务和十个来自不同领域和来源的数据集。每个任务都附有人工编写的指令,总共包含150万查询和560万检索候选。数据集结构包括查询数据、候选池、指令、Qrels和图像。

M-BEIR(多模态指令检索基准)是一个综合性的大规模检索基准,旨在训练和评估统一的多模态检索模型(UniIR模型)。该基准包含八个多模态检索任务和十个来自不同领域和来源的数据集。每个任务都附有人工编写的指令,总共包含150万查询和560万检索候选。数据集结构包括查询数据、候选池、指令、Qrels和图像。
提供机构:
TIGER-Lab
原始信息汇总

数据集概述

M-BEIR,即Multimodal BEnchmark for Instructed Retrieval,是一个综合的大型检索基准,旨在训练和评估统一的跨模态检索模型(UniIR模型)。M-BEIR基准包含八个跨模态检索任务和来自多个领域和来源的十个数据集。每个任务都附有人工编写的指令,总共包含150万个查询和560万个检索候选池。

数据集结构概述

M-BEIR数据集分为五个主要部分:查询数据、候选池、指令、Qrels和图像。

查询数据

查询数据的目录结构如下:

query/ │ ├── train/ │ ├── mbeir_cirr_train.jsonl │ ├── mbeir_edis_train.jsonl │ ... ├── union_train/ │ └── mbeir_union_up_train.jsonl ├── val/ │ ├── mbeir_visualnews_task0_val.jsonl │ ├── mbeir_visualnews_task3_val.jsonl │ ... └── test/ ├── mbeir_visualnews_task0_test.jsonl ├── mbeir_visualnews_task3_test.jsonl ...

  • train:包含8个不同数据集的训练数据,格式为M-BEIR风格。
  • mbeir_union_up_train.jsonl:这是专门为UniIR模型设计的批次对比训练的默认训练数据,聚合了训练目录中的所有数据,并对相对较小的数据集进行了上采样以平衡训练过程。
  • val:包含按任务组织的验证查询的单独文件。
  • test:包含按任务组织的测试查询的单独文件。

每个M-BEIR查询实例至少有一个正候选数据,可能没有负候选数据。每个查询JSON对象的结构如下: json { "qid": "唯一标识符,格式为{dataset_id}:{query_id}", "query_txt": "查询的文本部分", "query_img_path": "关联查询图像的文件路径", "query_modality": "查询的模态类型(文本、图像或文本,图像)", "query_src_content": "原始数据集中的附加内容,通过json.dumps()表示为字符串", "pos_cand_list": [ { "did": "唯一标识符,格式为{dataset_id}:{doc_id}" } // ...更多正候选 ], "neg_cand_list": [ { "did": "唯一标识符,格式为{dataset_id}:{doc_id}" } // ...更多负候选 ] }

候选池

候选池包含查询的潜在匹配文档。

M-BEIR_5.6M

在全局目录中,默认检索设置要求模型从包含各种模态和领域的异构池中检索正候选。M-BEIR的全局候选池包含560万个候选,包括所有任务和数据集的检索语料库。

M-BEIR_local

在本地目录中,我们提供了数据集任务特定的池作为M-BEIR_local。数据集任务特定的池包含来自原始数据集的同质候选。

候选池的目录结构如下:

cand_pool/ │ ├── global/ │ ├── mbeir_union_val_cand_pool.jsonl │ └── mbeir_union_test_cand_pool.jsonl │ └── local/ ├── mbeir_visualnews_task0_cand_pool.jsonl ├── mbeir_visualnews_task3_cand_pool.jsonl ...

每个候选JSON对象的结构如下: json { "did": "文档的唯一标识符,格式为{dataset_id}:{doc_id}", "txt": "候选文档的文本内容", "img_path": "候选文档图像的文件路径", "modality": "候选的模态类型(例如,文本、图像或文本,图像)", "src_content": "原始数据集中的附加内容,通过json.dumps()表示为字符串" }

指令

query_instructions.tsv包含在UniIR框架内的人工授权指令。每个任务都附有四个人工编写的指令。详细使用方法请参考GitHub Repo

Qrels

qrels目录中,您将找到验证集和测试集的qrels。这些文件用于评估UniIR模型。详细信息请参考GitHub Repo

AI搜集汇总
数据集介绍
main_image_url
构建方式
M-BEIR数据集的构建,是基于多模态检索任务的需求,整合了来自不同领域和来源的十个数据集。数据集结构划分为查询数据、候选池、指令、Qrels和图像五大主要部分,其中查询数据和候选池均按照特定的目录结构进行了组织。每个查询实例包含至少一个正候选数据,可能没有负候选数据,正负候选数据均以JSON对象的形式存储。
特点
M-BEIR数据集的特点在于其多元化的任务类型和大规模的数据量。它包含了八种多模态检索任务,共计150万条查询和560万条检索候选,覆盖了文本检索、文本到图像、图像到文本以及视觉问答等任务。此外,数据集还提供了人类编写的指令,以及用于评估UniIR模型的Qrels文件。
使用方法
使用M-BEIR数据集前,需要安装Git Large File Storage (LFS)以处理大型数据文件。之后,通过克隆数据集仓库来下载数据集。下载完成后,需要解压图像文件。数据集的使用包括数据加载和评估流程,详细步骤和指南可在UniIR的GitHub仓库中找到。
背景与挑战
背景概述
M-BEIR数据集,全称为Multimodal BE benchmark for Instructioned Retrieval,是由TIGER-Lab团队开发的一种大规模的多模态检索基准。该数据集旨在训练和评估统一的多模态检索模型(UniIR模型),并包含八个多模态检索任务和来自不同领域和来源的十个数据集。每个任务都配备了由人类编写的指令,总共包含150万条查询和560万条检索候选者。M-BEIR数据集的创建,对多模态检索领域的研究具有重要的推动作用,为相关研究提供了丰富的实验资源。
当前挑战
M-BEIR数据集面临的挑战主要在于:1) 如何在多模态检索任务中,有效地融合文本和图像信息;2) 处理不同数据集之间的异质性,以及如何构建一个能够涵盖各种模态和领域的全局候选池;3) 在训练过程中,如何平衡不同大小数据集的贡献,以及如何为UniIR模型提供合适的训练数据;4) 对于多模态检索的评价标准和方法仍需进一步探索和完善。这些挑战对于提升多模态检索模型的性能和泛化能力至关重要。
常用场景
经典使用场景
在当前多模态检索研究的热潮中,M-BEIR数据集以其全面性及多样性,成为训练与评估统一多模态检索模型的经典资源。该数据集涵盖了文本检索、文本到图像、图像到文本以及视觉问答等多种任务,使得研究者在统一的框架下,能够对模型进行全方位的测试与优化。
实际应用
在实际应用场景中,M-BEIR数据集的应用范围广泛,可服务于搜索引擎优化、智能推荐系统、内容审核以及多模态交互式机器人等领域。其强大的检索和匹配能力,为用户提供了更为精准和高效的搜索体验,从而在信息过载的时代背景下,显著提升了信息检索的实用价值。
衍生相关工作
基于M-BEIR数据集,学术界已经衍生出一系列经典工作,如UniIR模型的训练与评估、多模态检索任务的基准测试等。这些工作不仅推动了多模态检索技术的进步,也为后续研究提供了丰富的实验基础和比较标准。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录