DLCV_Final1

Hugging Face2025-11-24 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/yaguchi27/DLCV_Final1

下载链接

链接失效反馈

官方服务：

资源简介：

Physical AI Spatial Intelligence Warehouse是一个综合的合成3D场景理解数据集，专为仓库环境设计。该数据集使用NVIDIA的Omniverse生成，包含RGB-D图像、对象掩模和自然语言问答对，覆盖了空间关系、多选问题、距离测量和对象计数四个关键类别。数据集的标注通过基于规则的模板自动生成，并通过LLM模型进行优化以实现更自然的语言响应。

创建时间：

2025-11-23

原始信息汇总

DLCV_Final1 数据集概述

数据集基本信息

数据集名称: Physical AI Spatial Intelligence Warehouse (DLCV_Final1子集版本)
所有者: NVIDIA
创建日期: 2025年1月
许可证: CC-BY-4.0
原始数据集地址: https://huggingface.co/datasets/nvidia/PhysicalAI-Spatial-Intelligence-Warehouse

数据集描述

数据特征

数据收集方法: 合成数据(RGB图像、深度图像)
标注方法:
- 自动生成(IsaacSim/Omniverse)
- 基于规则的文本生成
- 可选使用Llama-3.1-70B-Instruct进行精炼

数据规模

训练集: 499k QA对
测试集: 19k QA对
验证集: 1.9k QA对
图像数量: 约95k RGB-D图像对

问题类别

left_right: 空间关系推理(左/右)
multi_choice_question (mcq): 多选问题
distance: 距离估计(米)
count: 对象计数

目录结构

train/ ├── depths/ │ ├── <frame_id1>_depth.png │ └── <frame_idn>_depth.png └── images/ ├── <frame_id1>.png └── <frame_idn>.png val/ ├── depths/ └── images/ test/ ├── depths/ └── images/ train.json val.json test.json

标注格式

主要字段说明

id: 唯一标识符
image: 图像文件名
conversations: 对话内容(遵循LLaVA格式)
rle: 对象掩码(RLE编码)
category: 问题类别
normalized_answer: 标准化答案(用于评估)
freeform_answer: 原始自由形式答案

特殊说明

test.json仅包含id、image、conversations和rle字段
掩码格式遵循pycoco标准

使用说明

数据下载

shell git clone https://huggingface.co/datasets/yaguchi27/DLCV_Final1 cd DLCV_Final1 tar -xvf images.tar.gz

可视化工具

shell python ./utils/visualize.py --image_folder ./val/images/ --depth_folder ./val/depths/ --annotations_file ./val.json --num_samples 10

评估格式

提交文件需为JSON格式，包含id和normalized_answer字段： json [ { "id": "000123", "normalized_answer": "1.22" } ]

评估命令

shell python ./utils/compute_scores.py --gt_path ./val.json --pred_path ./utils/assets/perfect_predictions_val.json

版本历史

2025-05-24: 初始版本发布，包含train/val/test划分
2025-11-23: 为课程使用添加并重组为DLCV_Final1子集版本

搜集汇总

数据集介绍

构建方式

作为计算机视觉领域的重要资源，该数据集通过NVIDIA Omniverse平台采用合成生成技术构建。构建过程基于规则模板自动生成空间推理问答对，并运用大语言模型对自然语言表述进行优化处理。数据采集涵盖仓库环境的RGB图像与深度图，所有标注信息均通过IsaacSim自动化流程生成，确保了标注的一致性与精确度。

特点

该数据集在三维场景理解领域具有显著特色，其核心价值体现在四类空间推理任务：左右方位判断、多项选择题、距离测量和物体计数。数据集提供约95,000组RGB-D图像对，并配备49.9万训练问答对与1.9万验证问答对。每个数据样本均包含标准化单字答案与自由格式回答，同时提供符合COCO格式的物体掩码标注，支持视觉语言模型的端到端训练需求。

使用方法

在具体应用层面，用户可通过Git克隆或HuggingFace客户端获取数据集压缩包，解压后按训练集、验证集和测试集目录结构组织数据。数据集提供专用可视化工具，支持同时加载图像、深度图与标注文件进行样本展示。评估阶段需按照指定JSON格式提交预测结果，通过配套评估脚本计算标准化答案的准确率与误差指标，确保模型性能验证的规范性。

背景与挑战

背景概述

在三维场景理解技术蓬勃发展的背景下，NVIDIA于2025年1月推出了Physical AI Spatial Intelligence Warehouse数据集，旨在解决仓储环境中空间智能推理的核心问题。该数据集通过合成方法生成包含RGB-D图像与自然语言问答对的多模态数据，覆盖空间方位判断、距离测量、物体计数及多选推理四大任务范畴，为视觉语言模型在复杂物理场景中的认知能力评估提供了标准化基准。其采用的规则化标注与大语言模型优化策略，显著提升了三维视觉与语言交互研究的可复现性与系统性。

当前挑战

构建过程面临合成数据真实性与多样性的平衡挑战，需通过物理引擎精确模拟光影交互与物体材质，同时确保问答对覆盖现实场景中的语义复杂度。在领域问题层面，模型需克服深度信息与二维视觉特征的跨模态对齐难题，尤其在处理遮挡关系与尺度变化时保持空间推理的稳定性。此外，统一化答案归一化机制要求模型具备从自由文本中提取结构化数据的能力，这对自然语言理解与几何认知的融合提出了更高要求。

常用场景

经典使用场景

在计算机视觉与空间智能研究领域，DLCV_Final1数据集作为物理AI空间智能仓库的子集，主要应用于三维场景理解与视觉语言模型的联合训练。其经典使用场景聚焦于仓库环境中的多模态推理任务，通过结合RGB-D图像与自然语言问答对，系统评估模型在复杂空间布局中的认知能力。该数据集通过左/右关系判断、多选问题、距离估算和物体计数四类任务，构建了结构化评估框架，成为视觉语言模型在具身智能场景下的基准测试平台。

解决学术问题

该数据集有效解决了视觉语言模型在物理空间推理中的泛化性难题。通过提供大规模合成数据与规则化标注，显著降低了真实场景数据采集成本，同时保证了标注的精确度与一致性。其核心价值在于构建了可量化的空间智能评估体系，为研究多模态融合、三维几何理解以及语言引导的视觉推理等前沿课题提供了标准实验环境。这种数据驱动的研究范式极大推动了具身人工智能在复杂环境中的认知能力发展。

衍生相关工作

该数据集的发布催生了系列经典研究工作，特别是在视觉语言模型架构创新方面。以LLaVA为代表的视觉指令调优方法通过该数据集验证了多模态融合的有效性，后续研究则进一步拓展了三维视觉表征与语言语义的对齐机制。在ECCV、NeurIPS等顶级会议上，基于该数据集的空间推理基准测试已成为评估模型物理常识理解能力的重要标准，推动了视觉语言模型向具身智能方向的范式转移。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集