KB-REF dataset

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/wangpengnorman/KB-Ref_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

KB-REF数据集是一个指称表达理解数据集。与其他指称表达数据集不同，它要求每个指称表达必须使用至少一个外部知识（无法从图像中获取的信息）。训练集包含31,284个表达和9,925张图像，验证集包含4,000个表达和2,290张图像，测试集包含8,000个表达和4,702张图像。数据集还包含多个对象类别。

The KB-REF dataset is a referring expression comprehension dataset. Unlike other referring expression datasets, it requires that each referring expression must utilize at least one piece of external knowledge (information that cannot be obtained from the image). The training set includes 31,284 expressions and 9,925 images, the validation set contains 4,000 expressions and 2,290 images, and the test set comprises 8,000 expressions and 4,702 images. The dataset also encompasses multiple object categories.

创建时间：

2020-08-05

原始信息汇总

KB-REF_dataset 概述

数据集描述

类型：KB-REF dataset 是一个参考表达理解数据集。
特点：与其他参考表达数据集不同，KB-REF要求每个参考表达至少使用一个外部知识（这些信息无法从图像中获得）。
数据量：
- 训练集：包含9,925张图像和31,284个表达。
- 验证集：包含2,290张图像和4,000个表达。
- 测试集：包含4,702张图像和8,000个表达。
- 对象类别：数据集包含多个对象类别。

数据集内容

expression.json：数据集的主要部分，包含图像ID和对象ID作为键，值包含参考表达和相应事实。
candidate.json：每个图像的地面实况对象，每个图像选择10个地面实况对象作为候选边界框。
image.json：包含每个图像的宽度和高度。
objects.json：包含每个对象实例的具体信息，如对象类别、名称和边界框的坐标及尺寸。
train.json, val.json, test.json：描述哪些图片用于训练、验证和测试。
Vocabualry.json：词汇文件。
Wikipedia.json, ConceptNet.json, WebChild.json：收集的知识，键为对象类别，值为相应事实。

数据集下载

下载链接：BaiduYun Drive (code: 3vze)
图像来源：VisualGenome

搜集汇总

数据集介绍

构建方式

KB-REF数据集的构建基于视觉理解与外部知识结合的需求，旨在通过引入外部知识来增强指代表达的理解能力。数据集的核心部分来源于VisualGenome，包含了大量图像及其对应的物体标注。在此基础上，研究者为每张图像生成了指代表达，并确保每个表达至少引用一个外部知识源。数据集通过多个JSON文件进行组织，分别存储了表达、候选对象、图像尺寸、物体实例信息以及训练、验证和测试集的划分。此外，还整合了来自Wikipedia、ConceptNet和WebChild的知识库，以支持指代表达的推理。

特点

KB-REF数据集的显著特点在于其强调外部知识在指代表达理解中的重要性。与传统的指代表达数据集不同，KB-REF要求每个表达必须依赖至少一个外部知识源，从而提升了任务的复杂性和挑战性。数据集包含31,284个训练表达、4,000个验证表达和8,000个测试表达，覆盖了广泛的物体类别。此外，数据集提供了丰富的结构化信息，包括物体实例的详细标注、候选对象的边界框以及图像的基本尺寸，为模型训练和评估提供了全面的支持。

使用方法

使用KB-REF数据集时，研究者首先需要下载并解压数据集文件，其中包括多个JSON文件，分别存储了表达、候选对象、图像尺寸和物体实例信息。通过读取expression.json文件，可以获取每个指代表达及其对应的外部知识。candidate.json文件提供了每张图像的候选对象信息，用于模型推理时的边界框选择。image.json和objects.json文件分别提供了图像的尺寸和物体实例的详细标注。研究者可以根据train.json、val.json和test.json文件的划分，分别加载训练、验证和测试集。此外，Wikipedia.json、ConceptNet.json和WebChild.json文件提供了丰富的知识库，可用于增强模型的推理能力。

背景与挑战

背景概述

KB-REF数据集是一个基于知识的指代表达理解数据集，由研究人员在2020年创建，旨在解决指代表达理解任务中的外部知识依赖问题。与传统的指代表达数据集不同，KB-REF要求每个指代表达必须至少使用一项外部知识，这些知识无法直接从图像中获取。该数据集包含31,284条训练集表达、4,000条验证集表达和8,000条测试集表达，分别对应9,925张、2,290张和4,702张图像。图像数据来源于VisualGenome数据集，涵盖了多种对象类别。KB-REF的构建为自然语言处理与计算机视觉的交叉领域提供了新的研究方向，推动了基于知识的视觉理解技术的发展。

当前挑战

KB-REF数据集在解决指代表达理解任务时面临多重挑战。首先，模型需要结合图像内容与外部知识进行推理，这对多模态融合技术提出了更高要求。其次，数据集中指代表达的多样性与复杂性增加了模型的理解难度，尤其是在处理抽象或隐含的知识关联时。此外，数据集的构建过程也面临挑战，包括如何从多种知识源（如Wikipedia、ConceptNet和WebChild）中提取与图像对象相关的知识，并确保知识的准确性与一致性。这些挑战不仅考验了模型的推理能力，也对数据集的标注质量与知识整合提出了严格要求。

常用场景

经典使用场景

KB-REF数据集在视觉与语言交叉领域的研究中占据重要地位，尤其在指代表达理解任务中展现了其独特价值。研究者通过该数据集，能够训练模型在理解图像内容的同时，结合外部知识进行推理，从而实现对图像中特定对象的精准定位。这一过程不仅涉及视觉信息的处理，还要求模型具备知识整合能力，为多模态学习提供了丰富的实验场景。

实际应用

在实际应用中，KB-REF数据集为智能助手、自动驾驶和医疗影像分析等领域提供了重要支持。例如，在智能助手中，模型可以通过结合外部知识更准确地理解用户的语言指令；在自动驾驶中，车辆能够利用知识增强的视觉推理能力识别复杂交通场景中的关键对象；在医疗影像分析中，医生可以借助模型的知识整合能力更精准地定位病灶区域。

衍生相关工作

KB-REF数据集的发布催生了一系列经典研究工作，特别是在知识增强的视觉推理领域。例如，基于该数据集的研究提出了多种结合外部知识的指代表达理解模型，显著提升了任务性能。此外，该数据集还激发了多模态学习、知识图谱与视觉推理结合等方向的研究，为人工智能领域的技术创新提供了重要推动力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集