BByrneLab/multi_task_multi_modal_knowledge_retrieval_benchmark_M2KR

Name: BByrneLab/multi_task_multi_modal_knowledge_retrieval_benchmark_M2KR
Creator: BByrneLab
Published: 2025-04-20 05:54:37
License: 暂无描述

Hugging Face2025-04-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BByrneLab/multi_task_multi_modal_knowledge_retrieval_benchmark_M2KR

下载链接

链接失效反馈

官方服务：

资源简介：

M2KR是一个用于多模态知识检索的基准数据集。它包含了一系列任务和数据集，用于训练和评估多模态知识检索模型。数据集被预处理为统一格式，并为每个数据集编写了特定任务的提示指令。M2KR基准包含三种类型的任务：图像到文本（I2T）检索、问题到文本（Q2T）检索以及图像和问题到文本（IQ2T）检索。该数据集的主要用途是预训练通用多模态知识检索模型并对其性能进行基准测试。主要用户包括计算机视觉、自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

提供机构：

BByrneLab

原始信息汇总

M2KR 数据集概述

数据集详情

数据集类型： M2KR 是一个用于多模态知识检索的基准数据集。它包含一系列用于训练和评估多模态知识检索模型的任务和数据集。

数据集经过预处理，形成统一的格式，并为每个数据集编写了特定任务的提示指令。M2KR 基准包含三种类型的任务：

图像到文本（I2T）检索： 评估检索器根据输入图像找到相关文档的能力。包含的任务有 WIT、IGLUE-en、KVQA 和 CC3M。
问题到文本（Q2T）检索： 基于 MSMARCO，评估多模态检索器在仅文本检索方面的能力。
图像与问题到文本（IQ2T）检索： 最具有挑战性的任务，需要对问题和图像进行联合理解以进行准确检索。包含的任务有 OVEN、LLaVA、OKVQA、Infoseek 和 E-VQA。

许可证： MIT 许可证

数据集配置

CC_data

特征：
- original_data_id: 字符串序列
- pos_item_ids: 字符串序列
- pos_item_contents: 字符串序列
- img_id: 字符串
- img_path: 字符串
- image_id: 字符串
- question_id: 字符串
- question: 空值
- instruction: 字符串
分割：
- train: 160,122,542 字节, 595,375 个样本
下载大小： 60,703,737 字节
数据集大小： 160,122,542 字节

CC_passages

特征：
- language: 字符串
- original_data_id: 字符串
- img_id: 字符串
- img_path: 字符串
- passage_id: 字符串
- passage_content: 字符串
分割：
- train_passages: 115,902,148 字节, 595,375 个样本
下载大小： 48,443,038 字节
数据集大小： 115,902,148 字节

EVQA_data

特征：
- pos_item_ids: 字符串序列
- pos_item_contents: 字符串序列
- img_id: 字符串
- img_path: 字符串
- image_id: 字符串
- question_id: 字符串
- question: 字符串
- answers: 字符串序列
- gold_answer: 字符串
- question_type: 字符串
- instruction: 字符串
分割：
- train: 233,843,951 字节, 167,369 个样本
- valid: 12,191,971 字节, 9,852 个样本
- test: 4,958,556 字节, 3,750 个样本
下载大小： 39,851,691 字节
数据集大小： 250,994,478 字节

EVQA_passages

特征：
- language: 字符串
- passage_id: 字符串
- passage_content: 字符串
分割：
- train_passages: 58,570,897 字节, 50,205 个样本
- valid_passages: 59,117,345 字节, 50,753 个样本
- test_passages: 60,113,716 字节, 51,472 个样本
下载大小： 106,160,568 字节
数据集大小： 177,801,958 字节

IGLUE_data

特征：
- question_id: 字符串
- pos_item_ids: 字符串序列
- pos_item_contents: 字符串序列
- img_id: 字符串
- img_path: 字符串
- image_id: 字符串
- instruction: 字符串
- question: 字符串
分割：
- test: 1,188,601 字节, 685 个样本
下载大小： 634,409 字节
数据集大小： 1,188,601 字节

IGLUE_passages

特征：
- language: 字符串
- page_url: 字符串
- image_url: 字符串
- page_title: 字符串
- section_title: 字符串
- hierarchical_section_title: 字符串
- caption_reference_description: 字符串
- caption_attribution_description: 字符串
- caption_alt_text_description: 字符串
- mime_type: 字符串
- original_height: int64
- original_width: int64
- is_main_image: 布尔值
- attribution_passes_lang_id: 布尔值
- page_changed_recently: 布尔值
- context_page_description: 字符串
- context_section_description: 字符串
- image_id: 字符串
- original_data_id: 字符串
- img_id: 字符串
- img_path: 字符串
- image_downloaded: 布尔值
- passage_id: 字符串
- passage_content: 字符串
分割：
- test_passages: 3,595,283 字节, 1,000 个样本
下载大小： 2,072,916 字节
数据集大小： 3,595,283 字节

Infoseek_data

特征：
- question_id: 字符串
- image_id: 字符串
- question: 字符串
- answers: 字符串序列
- answer_eval: 字符串序列
- data_split: 字符串
- wikidata_value: float64
- wikidata_range: float64 序列
- entity_id: 字符串
- entity_text: 字符串
- image_path: 字符串
- gold_answer: 字符串
- objects: 列表
  - attribute_scores: float64 序列
  - attributes: 字符串序列
  - class: 字符串
  - ocr: 列表
    - score: float64
    - text: 字符串
  - rect: float64 序列
- related_item_ids: 字符串序列
- pos_item_ids: 字符串序列
- pos_item_contents: 字符串序列
- ROIs: 空值序列
- found: 布尔值
- img_caption: 字符串
- instruction: 字符串
- img_path: 字符串
- question_type: 字符串
分割：
- train: 10,097,646,987 字节, 676,441 个样本
- test: 77,721,658 字节, 4,708 个样本
下载大小： 3,494,936,536 字节
数据集大小： 10,175,368,645 字节

Infoseek_passages

特征：
- passage_id: 字符串
- passage_content: 字符串
- title: 字符串
分割：
- train_passages: 67,381,873 字节, 98,276 个样本
- test_passages: 67,381,873 字节, 98,276 个样本
下载大小： 79,086,526 字节
数据集大小： 134,763,746 字节

KVQA_data

特征：
- pos_item_ids: 字符串序列
- pos_item_contents: 字符串序列
- img_id: 字符串
- img_path: 字符串
- image_id: 字符串
- question_id: 字符串
- instruction: 字符串
- question: 字符串
分割：
- train: 36,180,062 字节, 64,396 个样本
- valid: 7,651,029 字节, 13,365 个样本
- test: 2,969,856 字节, 5,120 个样本
下载大小： 5,307,195 字节
数据集大小： 46,800,947 字节

KVQA_passages

特征：
- language: 字符串
- img_id: 字符串
- img_path: 字符串
- passage_id: 字符串
- passage_content: 字符串
分割：
- valid_passages: 2,148,876 字节, 4,648 个样本
- train_passages: 7,287,243 字节, 16,215 个样本
- test_passages: 2,148,876 字节, 4,648 个样本
下载大小： 4,755,781 字节
数据集大小： 11,584,995 字节

LLaVA_data

特征：
- pos_item_ids: 字符串序列
- pos_item_contents: 字符串序列
- img_id: 字符串
- img_path: 字符串
- image_id: 字符串
- question_id: 字符串
- question: 字符串
- llava_split: 字符串
- instruction: 字符串
分割：
- train: 259,696,568 字节, 350,747 个样本
- test: 4,429,239 字节, 5,120 个样本
下载大小： 110,447,927 字节
数据集大小： 264,125,807 字节

LLaVA_passages

特征：
- language: 字符串
- img_id: 字符串
- img_path: 字符串
- passage_id: 字符串
- passage_content: 字符串
- llava_split: 字符串
分割：
- train_passages: 201,390,688 字节, 350,747 个样本
- test_passages: 4,259,479 字节, 6,006 个样本
下载大小： 95,290,912 字节
数据集大小： 205,650,167 字节

MSMARCO_data

特征：
- original_data_id: 字符串序列
- pos_item_ids: 字符串序列
- pos_item_contents: 字符串序列
- img_id: 空值
- img_path: 空值
- image_id: 空值
- question_id: 字符串
- question: 字符串
- instruction: 字符串
分割：
- train: 211,125,342 字节, 400,782 个样本
- valid: 3,558,848 字节, 6,980 个样本
- test: 2,623,416 字节, 5,120 个样本
下载大小： 120,209,939 字节
数据集大小： 217,307,606 字节

MSMARCO_passages

特征：
- language: 字符串
- original_data_id: 字符串
- img_id: 空值
- img_path: 空值
- passage_id: 字符串
- passage_content: 字符串
分割：
- valid_passages: 151,114,792 字节, 400,000 个样本
- train_passages: 3,343,395,078 字节, 8,841,823 个样本
- test_passages: 151,114,792 字节, 400,000 个样本
下载大小： 1,954,619,356 字节
数据集大小： 3,645,624,662 字节

OKVQA_data

特征：
- answers: 字符串序列
- gold_answer: 字符串
- question: 字符串
- question_id: 字符串
- img_path: 字符串
- img_key_full: 字符串
- img_key: int64
- img_file_name: 字符串
- img: 空值
- img_caption: 结构
  - caption: 字符串
  - conf: float64
- objects: 列表
  - attribute_scores: float64 序列
  - attributes: 字符串序列
  - class: 字符串
  - ocr: 列表
    - score: float64
    - text: 字符串
  - rect: float64 序列
- img_ocr: 列表
  - description: 字符串
  - vertices: int64 序列序列
- pos_item_ids: 字符串序列
- pos_item_contents: 字符串序列
- related_item_ids: 字符串序列
- `__

搜集汇总

数据集介绍

构建方式

在知识检索与视觉问答的交叉领域，M2KR数据集通过整合多个权威子集构建而成。其构建过程涉及对CC、EVQA、Infoseek、KVQA、LLaVA、MSMARCO、OKVQA、OVEN及WIT等多样化数据源的系统性预处理，将原始数据统一转化为结构化格式。每个子集均被重新组织为数据与篇章两个独立配置，其中数据配置包含问题、图像标识及指令，篇章配置则提供对应的文本内容，确保了多模态信息间的对齐与可检索性。

使用方法

使用M2KR时，研究人员可通过HuggingFace数据集库加载特定配置，例如CC_data或EVQA_passages。数据集适用于训练和评估多模态检索模型，尤其适合研究指令引导下的检索性能。典型流程包括加载数据与篇章分割，利用指令字段构建查询，并计算图像与文本嵌入之间的相似度。数据集的标准化格式便于直接集成到现有检索框架中，支持端到端的模型训练与跨数据集基准测试。

背景与挑战

背景概述

随着多模态人工智能的蓬勃发展，跨模态知识检索成为连接视觉与语言理解的关键桥梁。M2KR（多任务多模态知识检索基准）由BByrneLab团队构建，旨在为这一前沿领域提供统一的评估框架。该数据集整合了包括CC、EVQA、OKVQA、WIT在内的十余个异构子集，覆盖图像到文本、文本到图像及视觉问答等多种任务形态。其核心研究问题聚焦于如何让模型在海量多模态数据中精准定位相关知识片段，从而推动检索式视觉问答、跨模态预训练等方向的算法进步。通过标准化数据格式与任务指令，M2KR为多模态检索模型的性能评估与比较奠定了重要基础。

当前挑战

多模态知识检索面临的核心挑战在于异构信息的对齐与融合：模型需同时理解图像视觉特征、文本语义以及二者间的隐含关联，并在亿级规模语料中实现高效检索。具体而言，数据构建过程涉及多源异构数据集的结构化整合，需克服标注标准不统一、模态缺失（如部分文本任务无图像）、多语言噪声等难题。此外，设计普适且有效的任务指令以统一不同子集的评估标准，同时保持各任务原有特性，亦是数据集构建中的关键挑战。这些困难共同指向了多模态表示学习与跨模态检索算法在鲁棒性与泛化能力上的深层需求。

常用场景

经典使用场景

在多模态人工智能领域，M2KR数据集作为知识检索的基准测试平台，其经典使用场景聚焦于图像到文本的跨模态检索任务。研究者利用该数据集训练模型，使其能够根据输入的图像内容，从海量文本知识库中精准定位并提取相关的描述性段落，从而评估模型在复杂视觉-语言关联理解上的性能。

解决学术问题

该数据集有效解决了多模态知识检索中跨模态语义对齐的学术难题，为模型提供了统一的评估框架。通过整合多个异构子数据集，M2KR促进了检索模型在零样本和少样本学习环境下的泛化能力研究，并推动了针对外部知识库进行开放域视觉问答的算法发展，对构建更鲁棒、更通用的多模态智能系统具有深远意义。

实际应用

在实际应用中，M2KR数据集支撑了智能搜索引擎、教育辅助工具以及内容审核系统的开发。例如，系统可以借助该数据集训练的模型，自动为网络图片生成准确描述或关联百科知识，辅助视障用户理解图像内容，或在社交媒体平台上快速核查图文信息的一致性，提升信息服务的准确性与可及性。

数据集最近研究