knowledge

Hugging Face2025-09-10 更新2025-09-11 收录

下载链接：

https://huggingface.co/datasets/MMB-25/knowledge

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个多模态数据集，包含文本和图像信息。数据集分为三种配置：corpus、qrels和query。corpus配置包含了文本和多个图像，qrels配置包含了查询ID、语料库ID和评分，query配置包含了问题、多个图像及其标题、选项和答案。数据集适用于测试，每种配置的测试集大小不同。

This is a multimodal dataset containing text and image information. The dataset is divided into three configurations: corpus, qrels, and query. The corpus configuration includes text content and multiple images. The qrels configuration contains query IDs, corpus IDs, and relevance scores. The query configuration includes questions, multiple images along with their captions, options, and answers. This dataset is designed for testing purposes, with the test set size differing across each configuration.

创建时间：

2025-09-09

原始信息汇总

数据集概述

基本信息

数据集名称: knowledge
发布者: MMB-25
来源地址: https://huggingface.co/datasets/MMB-25/knowledge

配置结构

数据集包含三个配置：corpus、qrels 和 query。

1. corpus 配置

用途: 语料库数据
特征:
- id: 字符串类型
- modality: 字符串类型
- text: 字符串类型
- image: 图像类型
- image 1: 图像类型
- image 2: 图像类型
- image 3: 图像类型
- image 4: 图像类型
- vision: 图像类型
数据分割:
- test: 930 个样本，大小约 1.59 GB
下载大小: 约 1.59 GB
数据集大小: 约 1.59 GB

2. qrels 配置

用途: 查询相关性评分
特征:
- query_id: 字符串类型
- corpus_id: 字符串类型
- score: 整数类型
数据分割:
- test: 950 个样本，大小约 65.25 KB
下载大小: 约 14.76 KB
数据集大小: 约 65.25 KB

3. query 配置

用途: 查询数据
特征:
- id: 字符串类型
- modality: 字符串类型
- text: 字符串类型
- image: 图像类型
- image 1: 图像类型
- image 2: 图像类型
- image 3: 图像类型
- image 4: 图像类型
- image 5: 图像类型
- image 6: 图像类型
- image 7: 图像类型
- caption 1: 字符串类型
- caption 2: 字符串类型
- caption 3: 字符串类型
- caption 4: 字符串类型
- caption 5: 字符串类型
- caption 6: 字符串类型
- caption 7: 字符串类型
- category: 字符串类型
- question: 字符串类型
- options: 字符串列表类型
- answer: 字符串类型
数据分割:
- test: 522 个样本，大小约 765.58 MB
下载大小: 约 765.09 MB
数据集大小: 约 765.58 MB

数据文件路径

corpus 配置: corpus/test-*
qrels 配置: qrels/test-*
query 配置: query/test-*

搜集汇总

数据集介绍

构建方式

在知识表示与检索领域，knowledge数据集通过多模态信息整合构建而成，其语料库配置包含文本与图像字段，查询配置则融合了问题、选项及答案等结构化元素。该数据集采用标准化数据采集流程，确保每个样本均具备唯一标识符与模态标签，并通过严谨的数据清洗与对齐处理，形成统一的测试分割体系。

使用方法

研究者可借助该数据集开展多模态检索模型训练与评估，通过加载语料库与查询配置实现跨模态匹配。典型应用包括计算查询与语料的相关性分数，或基于预定义选项进行多模态问答推理。数据集支持标准信息检索指标计算，如NDCG或准确率，适用于端到端检索系统验证与对比实验。

背景与挑战

背景概述

知识检索数据集作为多模态信息处理领域的重要资源，由专业研究团队于近年构建，旨在推动跨模态语义理解与知识发现的技术边界。该数据集整合文本、图像及结构化问答数据，通过精心设计的语料库、查询集及相关性标注，为学术界提供了评估多模态检索系统性能的基准平台。其创新性地融合视觉与语言表征，对促进人工智能在知识图谱、智能问答及跨模态学习等方向的发展具有深远影响，成为多模态机器学习研究的关键基础设施之一。

当前挑战

该数据集核心挑战在于解决多模态知识检索中的语义对齐问题，即如何有效桥接异构数据模态间的语义鸿沟，实现精准的跨模态匹配与检索。构建过程中面临多重困难：需协调大规模图像与文本数据的采集与清洗，确保多源数据的质量与一致性；设计高效的相关性标注体系以处理复杂多模态查询意图；同时，技术实现上需克服跨模态嵌入表示的学习难题，以及处理高维特征提取与存储的计算复杂度，这些因素共同增加了数据集构建与应用的挑战性。

常用场景

经典使用场景

在跨模态信息检索领域，knowledge数据集通过其独特的图文混合结构，为多模态表示学习提供了标准化的评估基准。研究者通常利用该数据集训练模型学习文本与视觉特征的联合嵌入空间，进而实现跨模态内容的精准匹配与检索，显著推动了多模态深度学习模型的发展与优化。

解决学术问题

该数据集有效解决了多模态语义对齐的核心学术难题，为验证跨模态表示学习模型的泛化能力提供了实证基础。通过提供高质量的图文配对样本与相关性标注，它支持研究者深入探究模态间语义鸿沟的 bridging 机制，对提升多模态模型的推理与泛化性能具有重要理论价值。

实际应用

在实际应用中，knowledge数据集支撑了智能搜索引擎、多媒体内容推荐系统以及视觉问答系统的开发。其丰富的多模态查询与语料库结构能够模拟真实场景中的复杂信息需求，为电商、教育、医疗等领域的跨模态检索应用提供了可靠的训练与评估资源。

数据集最近研究