SLIM Dataset

github2023-11-24 更新2024-05-31 收录

下载链接：

https://github.com/deepmind/slim-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含在MuJoCo中渲染的虚拟场景，每个场景有多个视角，每个视角呈现多种模态：图像和合成或自然语言描述。每个场景包含两到三个物体放置在一个方形围墙房间内，每个摄像机视角渲染一个3D视图以及一个合成生成的场景描述。此外，还包括通过Amazon Mechanical Turk收集的人工标注的自然语言描述，描述对象的形状、颜色、相对位置和大小。

This dataset comprises virtual scenes rendered in MuJoCo, each scene featuring multiple viewpoints, with each viewpoint presenting various modalities: images and synthetic or natural language descriptions. Each scene contains two to three objects placed within a square-walled room, with each camera viewpoint rendering a 3D view along with a synthetically generated scene description. Additionally, it includes natural language descriptions manually annotated through Amazon Mechanical Turk, detailing the shape, color, relative position, and size of the objects.

创建时间：

2018-07-04

原始信息汇总

数据集概述

数据集组成

虚拟场景：数据集包含在MuJoCo中渲染的虚拟场景，每个场景有多个视图。
多模态呈现：每个视图以图像和合成或自然语言描述的形式呈现。
场景元素：场景中包含两到三个物体，放置在一个有围墙的方形房间内。
视图数量：每个场景从10个不同的摄像机视点渲染3D视图和合成描述。

数据类型

合成数据：
- 包含两到三个彩色的3D物体以及浅灰色的墙壁和地板。
- 语言描述通过程序生成，考虑场景图和摄像机坐标来描述物体从每个视点的空间排列。
人工标注数据：
- 通过Amazon Mechanical Turk收集自然语言描述。
- 要求标注者描述图像中的房间，如同向未见图像的朋友描述以便其绘制。
- 描述需包括物体形状、颜色、相对位置和相对大小。
- 共标注了6,604个场景，每个场景有10个描述，对应每个视点。

数据集用途

用于训练Spatial Language Integrating Model (SLIM)，特别是在“Encoding Spatial Relations from Natural Language”论文中。

数据集访问

原始数据文件可从此处下载。

引用信息

@article{ramalho2018, author = {Tiago Ramalho and Tomav{s} Kov{cisky and Frederic Besse and S. M. Ali Eslami and Gabor Melis and Fabio Viola and Phil Blunsom and Karl Moritz Hermann}, title = {Encoding Spatial Relations from Natural Language}, journal={arXiv preprint}, year = {2018}, }

搜集汇总

数据集介绍

构建方式

SLIM数据集的构建采用了虚拟场景渲染与人工标注相结合的方式。首先，利用MuJoCo引擎生成了包含两到三个物体的虚拟场景，每个场景从十个不同的视角进行渲染，并生成了对应的图像和程序化生成的语言描述。随后，通过Amazon Mechanical Turk平台，收集了人工标注的自然语言描述，要求标注者从每个视角描述场景中的物体形状、颜色、相对位置和大小，最终形成了包含6,604个场景的数据集，每个场景配有十个视角的描述。

使用方法

SLIM数据集的使用方法主要通过TensorFlow框架实现。用户可以通过`reader.make_dataset`函数加载数据集，并利用迭代器进行数据读取。数据集中的每个样本包含查询、目标和原始数据三部分，其中查询部分提供了上下文信息（如图像、相机角度和描述），目标部分则包含目标视角的图像和描述。用户可以通过初始化迭代器并运行会话，逐步获取数据样本，进而用于模型的训练和验证。数据集的原始文件可通过Google Cloud Storage下载。

背景与挑战

背景概述

SLIM数据集由Tiago Ramalho等研究人员于2018年创建，旨在支持自然语言与空间关系编码的研究。该数据集通过MuJoCo渲染虚拟场景，包含多视角图像及合成或自然语言描述，场景中通常包含两到三个物体，放置在方形墙室内。数据集的核心研究问题在于如何从自然语言中提取并编码空间关系信息，进而推动计算机视觉与自然语言处理领域的交叉研究。该数据集在空间关系理解、多模态学习等领域具有重要影响力，为相关研究提供了丰富的实验数据。

当前挑战

SLIM数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，如何从自然语言描述中准确提取空间关系信息是一个复杂的问题，尤其是当描述涉及多个物体的相对位置、形状和颜色时，模型需要具备强大的多模态理解能力。其次，在数据集构建过程中，生成高质量的自然语言描述是一大挑战。尽管通过Amazon Mechanical Turk收集了大量人工标注数据，但确保描述的多样性和准确性仍需大量人工干预和后期处理。此外，合成数据的生成也需精确控制场景图和相机坐标，以确保描述与场景的一致性。

常用场景

经典使用场景

SLIM数据集在自然语言处理与计算机视觉的交叉领域中具有重要应用，尤其是在空间关系理解与描述生成任务中。通过虚拟场景的多视角渲染与多模态数据（如图像、合成语言描述和自然语言描述）的结合，该数据集为研究者提供了一个丰富的实验平台，用于训练和评估模型在空间语言整合方面的能力。

解决学术问题

SLIM数据集解决了自然语言处理中空间关系描述的生成与理解问题。通过提供多视角的场景图像与对应的语言描述，该数据集使得研究者能够开发出能够准确捕捉物体间空间关系的模型。这对于提升机器在复杂场景中的语言生成与理解能力具有重要意义，尤其是在需要精确描述物体相对位置的应用场景中。

实际应用

在实际应用中，SLIM数据集可用于开发智能助手、机器人导航系统以及虚拟现实中的场景描述生成工具。例如，在机器人导航中，模型可以通过分析场景图像生成自然语言描述，帮助机器人理解周围环境并执行任务。此外，该数据集还可用于增强虚拟现实中的用户体验，通过生成逼真的场景描述提升沉浸感。

数据集最近研究