Birmingham-Tufts Spatial Referring Expression Corpus

github2023-01-31 更新2024-05-31 收录

下载链接：

https://github.com/williamstome/SPARE-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含在实验中收集的空间指称表达描述，以及与之对应的图像和场景配置信息。数据集中的data.csv文件包含描述、图像ID、场景ID和目标参照物类型四个字段。此外，还提供了图像文件和场景元数据，用于详细描述每个场景和图像的属性。

This dataset comprises spatial referring expression descriptions collected during experiments, along with corresponding images and scene configuration information. The data.csv file within the dataset includes four fields: description, image ID, scene ID, and target referent type. Additionally, image files and scene metadata are provided to detail the attributes of each scene and image.

创建时间：

2017-02-28

原始信息汇总

SPARE-Corpus 数据集概述

数据集结构

corpus/: 包含 data.csv，该文件包含四个字段：
- Description: 实验中收集的空间指称表达。
- image_id: 实验中向参与者展示的图像编号。
- scene_id: 用于生成图像的场景配置编号。
- Object Type: 目标指称对象的类型。
img/: 包含一系列以相应 image_id 命名的 .png 文件。
metadata/: 包含 scenes.json，该文件包含图像元数据列表，每个条目将 image_id 映射到场景描述，描述包括：
- pixel: 包含图像的宽度、高度或对象名称及其在场景中的边界框。
- object: 场景中被边界框限定的对象名称。
- scene_id: 此配置的场景编号。

许可证

本数据集根据Creative Commons Attribution-ShareAlike 4.0 International license发布。

搜集汇总

数据集介绍

构建方式

Birmingham-Tufts Spatial Referring Expression Corpus的构建基于实验数据收集，实验参与者被展示特定场景的图像，并被要求生成描述目标物体的空间指代表达式。数据集的组织结构包括`corpus/`目录下的`data.csv`文件，其中包含描述、图像ID、场景ID和目标物体类型四列数据。`img/`目录存储了与图像ID对应的PNG文件，而`metadata/`目录中的`scenes.json`文件则提供了图像的元数据，包括图像尺寸和场景中物体的边界框信息。

特点

该数据集的特点在于其专注于空间指代表达式的生成与评估，适用于人机交互领域的研究。数据集不仅包含了丰富的实验数据，还提供了详细的图像和场景元数据，使得研究者能够深入分析空间指代表达式的生成机制。此外，数据集的图像和场景配置多样化，涵盖了多种物体类型和空间关系，为算法的训练和评估提供了坚实的基础。

使用方法

使用Birmingham-Tufts Spatial Referring Expression Corpus时，研究者可以通过`data.csv`文件获取实验数据，结合`img/`目录中的图像和`metadata/`目录中的场景描述，进行空间指代表达式的生成与评估。数据集的引用格式已在README文件中明确给出，使用时应遵循Creative Commons Attribution-ShareAlike 4.0 International许可协议，并引用相关论文以尊重作者的知识产权。

背景与挑战

背景概述

Birmingham-Tufts Spatial Referring Expression Corpus（SPARE-Corpus）是由Lars Kunze、Tom Williams、Nick Hawes和Matthias Scheutz等研究人员于2017年创建的一个空间指代表达语料库。该数据集旨在支持人机交互（HRI）领域的研究，特别是空间指代表达生成算法的开发与评估。数据集包含了实验过程中收集的描述性表达、图像ID、场景配置以及目标对象的类型等信息。通过提供丰富的图像和场景元数据，SPARE-Corpus为研究人员提供了一个标准化的工具，用于测试和优化空间指代表达生成模型。该数据集在2017年AAAI秋季研讨会的人工智能与人机交互（AR-HRI）专题中首次发布，并迅速成为该领域的重要参考资源。

当前挑战

SPARE-Corpus的构建旨在解决人机交互中空间指代表达生成的复杂性问题。这一领域的主要挑战在于如何生成准确且自然的指代表达，使机器人能够理解并执行用户的指令。数据集的构建过程中，研究人员面临了多方面的挑战。首先，实验设计需要确保参与者能够生成多样化的指代表达，同时避免偏差。其次，图像和场景的标注需要高度精确，以确保生成的表达与视觉内容一致。此外，数据集的规模和质量直接影响了模型的训练效果，因此需要平衡数据的多样性与标注的复杂性。这些挑战不仅体现在数据收集阶段，还贯穿于后续的数据处理和模型评估过程中。

常用场景

经典使用场景

Birmingham-Tufts Spatial Referring Expression Corpus（SPARE-Corpus）数据集在自然语言处理和计算机视觉领域中被广泛用于研究空间指代表达的生成与理解。该数据集通过实验收集了参与者对特定场景中目标物体的描述，结合图像和场景配置信息，为研究者提供了一个丰富的资源，用于训练和评估空间指代表达生成模型。经典的使用场景包括在机器人交互系统中，帮助机器人理解并生成与人类交流时使用的空间指代表达。

衍生相关工作

SPARE-Corpus数据集衍生了许多经典的研究工作，特别是在空间指代表达生成和理解的算法开发方面。例如，基于该数据集的研究提出了多种生成模型，如基于规则的方法和深度学习模型，用于提高空间指代表达的生成准确性和自然度。此外，该数据集还促进了多模态学习的研究，结合图像和文本信息，开发出更高效的指代表达生成系统。这些工作不仅推动了学术界的进展，也为工业界的应用提供了技术支持。

数据集最近研究