synthetic-distance

Name: synthetic-distance
Creator: 意大利理工学院, 英国阿伯丁大学
Published: 2025-05-20 21:49:09
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/jwgcurrie/synthetic-distance

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在NVIDIA Omniverse平台上生成的，旨在支持视觉语言模型进行空间推理任务的监督学习。数据集包含一个RGB图像、一个自然语言描述和一个代表物体姿态的真实4x4变换矩阵。数据集的目标是推断物体沿Z轴的平移，为机器人交互中的空间理解提供基础。

提供机构：

意大利理工学院, 英国阿伯丁大学

创建时间：

2025-05-20

原始信息汇总

synthetic-distance 数据集概述

数据集基本信息

数据集名称: synthetic-distance
发布者: Joel Currie 等
发布日期: 2025年
许可证: MIT
数据集大小: 762.43 MB
下载大小: 727.44 MB
访问地址: https://huggingface.co/datasets/jwgcurrie/synthetic-distance
DOI: 10.57967/hf/5351

数据集内容

数据类型: 合成RGB图像及文本提示
主要内容: 包含3D立方体的合成RGB图像，以及描述物体及其尺寸的自然语言指令、4×4变换矩阵和相机与立方体中心的距离。

特征字段

image: RGB图像（从相机视角渲染的3D物体图像）
prompt_T: 描述物体及其尺寸的自然语言指令（字符串）
prompt_D: 描述物体及其尺寸的自然语言指令（字符串）
transform: 扁平化的4×4变换矩阵（16个值，字符串格式）
distance: 相机与立方体中心之间的距离（float32）

数据划分

train
- 样本数量: 24000
- 数据大小: 611.93 MB
validation
- 样本数量: 4500
- 数据大小: 112.27 MB
test
- 样本数量: 1500
- 数据大小: 38.23 MB

引用信息

论文引用

bibtex @misc{currie2025embodiedcognitionrobotsspatially, title={Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds}, author={Joel Currie and Gioele Migno and Enrico Piacenti and Maria Elena Giannaccini and Patric Bach and Davide De Tommaso and Agnieszka Wykowska}, year={2025}, eprint={2505.14366}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2505.14366}, }

数据集引用

bibtex @misc{joel_currie_2025, author = { Joel Currie and Gioele Migno and Enrico Piacenti and Maria Elena Giannaccini and Patric Bach and Davide De Tommaso and Agnieszka Wykowska }, title = { synthetic-distance (Revision c86eff8) }, year = 2025, url = { https://huggingface.co/datasets/jwgcurrie/synthetic-distance }, doi = { 10.57967/hf/5351 }, publisher = { Hugging Face } }

纯文本引用

Currie, J., Migno, G., Piacenti, E., Giannaccini, M. E., Bach, P., De Tommaso, D., & Wykowska, A. (2025). synthetic-distance (Revision c86eff8). Hugging Face. https://doi.org/10.57967/hf/5351

搜集汇总

数据集介绍

构建方式

在机器人空间认知研究领域，合成数据为视觉语言模型训练提供了可控且精确的监督信号。该数据集采用NVIDIA Omniverse Replicator工具构建，通过程序化生成包含非均匀缩放立方体的极简3D场景。每个场景实例由随机高度的虚拟摄像机捕捉，同步输出RGB图像、自然语言描述以及表征物体与摄像机坐标系关系的4×4位姿变换矩阵。这种构建方式通过固定X/Y轴位移与所有旋转参数，专注于Z轴距离推理任务，为空间关系学习提供了结构化的监督范式。

特点

该数据集的核心价值在于其精确的空间表征能力与多模态特性。每个数据样本包含视觉（RGB图像）、语言（文本描述）和几何（变换矩阵）三重表征，为视觉语言模型提供了跨模态对齐的监督信号。数据集通过立方体的随机尺寸与材质参数化生成，确保了样本多样性。特别值得注意的是，所有空间关系均通过计算机图形学精确计算，避免了真实世界数据采集中的传感器噪声问题，为模型学习提供了数学上严格的空间监督。这种合成数据范式有效解决了自然场景中难以获取精确空间标注的瓶颈问题。

使用方法

该数据集设计用于训练视觉语言模型进行空间推理任务，特别关注机器人视觉视角采样的基础能力。研究人员可通过端到端方式，将RGB图像与文本提示作为输入，监督模型预测物体相对于摄像机的Z轴距离。数据集提供的变换矩阵可直接用于计算视角转换，支持机器人推断'物体相对于自身/他人的空间位置'这一核心认知能力。使用时应将4×4矩阵分解为平移与旋转分量，当前版本建议重点关注第三列向量中的Z轴位移值。该数据格式兼容主流深度学习框架，可无缝接入卷积神经网络或Transformer架构进行6自由度位姿预测的初步探索。

背景与挑战

背景概述

由意大利理工学院与阿伯丁大学联合开发的synthetic-distance数据集，发布于2025年，旨在推动具身人工智能在视觉视角采择（VPT）领域的研究。该数据集通过NVIDIA Omniverse平台生成包含程序化3D场景的合成数据，每个实例均配备RGB图像、自然语言描述及物体位姿的4×4变换矩阵真值。作为Joel Currie团队在《Towards Embodied Cognition in Robots via Spatially Grounded Synthetic Worlds》中提出的核心成果，该数据集首次将空间推理任务与视觉语言模型（VLMs）训练相结合，为人机交互中的视角转换、物体空间关系理解等认知任务提供了结构化监督数据。其创新性在于通过合成环境实现空间表征的精确标注，弥补了真实数据在几何真值获取上的局限性，为机器人具身认知研究开辟了新范式。

当前挑战

该数据集需解决视觉语言模型在空间推理中的两大核心挑战：一是现有VLMs对物体位姿、相对方位等精确空间关系的表征能力薄弱，源于缺乏视觉场景与空间关系的显式关联数据；二是真实场景数据难以获取精确的6自由度位姿真值，制约了监督学习效果。在构建过程中，研究者面临合成数据与真实场景的域适应问题，需平衡程序化生成的效率与场景复杂性。当前版本仅支持Z轴距离推理的简化任务，未来需扩展至完整6自由度位姿估计，并解决随机化材质、光照等变量对模型泛化性的影响。此外，如何将离散的空间推理模块整合至端到端的VLM框架，仍是待突破的技术难点。

常用场景

经典使用场景

在机器人视觉感知与空间推理研究中，synthetic-distance数据集通过程序化生成的3D场景为视觉语言模型（VLMs）提供了结构化监督学习的基础。每个场景包含RGB图像、自然语言描述及物体姿态的4×4变换矩阵，特别聚焦于Z轴距离推理这一核心空间关系。该设计使得研究者能够精准评估模型在视觉视角采择（VPT）任务中的表现，为后续六自由度（6DOF）推理奠定实验基础。

解决学术问题

该数据集有效解决了当前视觉语言模型在精确空间推理方面的关键瓶颈问题。传统方法依赖手工几何建模或规则转换，缺乏对多视角空间关系的泛化能力；而现有VLMs因缺乏显式关联视觉场景与空间关系的训练数据，难以实现精确的物体位姿推断。通过提供合成环境中可扩展的监督信号，该数据集填补了空间表征学习的数据空白，推动了具身智能体在交互场景中对‘他人所见’与‘相对位置’的认知建模。

衍生相关工作

该数据集启发了多项关于多模态空间推理的前沿研究。Chen等人提出的SpatialVLM通过引入类似的结构化监督信号，实现了场景理解与空间推理的联合建模；Song团队开发的RoboSpatial框架进一步扩展了数据维度，将2D/3D视觉语言模型应用于机器人导航任务。这些工作共同验证了合成数据在具身认知研究中的普适价值，推动VPT从理论验证向复杂交互场景的落地。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集