spatial-iq

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/patrickqrim/spatial-iq

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用Isaac Sim生成的桌面或仓库地面上堆叠物体的场景图像，以.png图像和.json元数据文件的形式存储。数据集由NVIDIA Corporation创建，发布于2026年4月10日，采用知识共享署名4.0国际许可协议（CC BY 4.0），允许包括商业用途在内的广泛使用。数据集不包含任何个人或机密数据。数据集包含241,185个.png和.json文件，总计54.57 GB的存储空间。图像为包含块状结构的合成场景，元数据文件则包含关于块状结构的信息（如总块数、层数、列数）。该数据集旨在训练和基准测试AI模型（LLMs和VLMs）以计算堆叠中单个物体的数量。NVIDIA强调可信AI是共同责任，建议开发者在下载或使用数据集时，确保其符合相关行业和用例的要求，并报告任何质量问题、风险或安全漏洞。

创建时间：

2026-05-07

原始信息汇总

数据集概述：Spatial-IQ

基本信息

数据集名称：Spatial-IQ
创建日期：2026年4月10日
数据集所有者：NVIDIA Corporation
许可证：Creative Commons Attribution 4.0 International License (CC BY 4.0)，允许商业使用
总存储大小：54.57 GB

数据集描述

该数据集包含使用 Isaac Sim 生成的桌面或仓库地面上堆叠物体的场景图像，不包含任何个人或机密数据。

预期用途

用于训练和评估AI模型（包括LLMs和VLMs）对堆叠中物体数量的计数能力。

数据收集与标注方法

数据收集方法：合成数据生成
标注方法：合成标注

数据格式

图像文件：PNG格式
元数据文件：JSON格式

数据量化

记录数量：241,185 个PNG和JSON文件对
特征内容：
- PNG图像：包含块状结构的合成场景
- JSON元数据：包含块结构的相关信息（总块数、层数、列数）

参考信息

附加参考文件链接：https://drive.google.com/file/d/1_83VNHYgcnfeYuXjmjl7e26rz9ytWZF4/view?usp=share_link

伦理考量

NVIDIA强调可信AI是共同责任，建议开发者在下载或使用数据集时，结合内部开发团队确保其符合相关行业和使用场景的需求，并应对未预见的产品滥用风险。质量问题、安全漏洞或AI相关疑虑可通过指定渠道报告。

搜集汇总

数据集介绍

构建方式

spatial-iq数据集由NVIDIA Corporation于2026年4月创建，采用完全合成的方式生成。数据集的构建依托于Isaac Sim仿真平台，模拟了桌面上或仓库地板上的物体堆叠场景。每个场景由不同层数和列数的块状结构组成，并通过渲染生成对应的PNG格式图像。同时，每张图像都配有一个JSON格式的元数据文件，详细记录了该场景中的块总数、层数和列数。这种自动化合成流程确保了大规模、高质量数据的可重复生产，总计包含241,185组图像与元数据文件，存储容量达54.57 GB。

特点

该数据集的核心特点在于其专注于对堆叠物体中个体数量的精确计数任务。所有图像均源自合成环境，背景干净、光照可控，排除了现实世界中的噪声与遮挡干扰，从而为模型训练提供了清晰且标准化的视觉输入。元数据与图像严格对齐，提供了多维度的结构化标签（如总块数、层数、列数），不仅支持简单的计数回归，还允许模型学习空间排列的层次关系。此外，数据集采用CC BY 4.0许可协议开放商用，具有广泛的应用灵活性。

使用方法

该数据集主要面向大型语言模型和视觉语言模型的训练与基准测试。使用方法上，研究人员可直接加载PNG图像作为视觉输入，并配对对应的JSON元数据作为监督标签，用于计数任务的监督学习。例如，可构建回归模型预测总块数，或设计多任务架构同时预测层数与列数。由于数据格式统一且规模适中（241k样本），适合直接采用标准的数据加载器进行批处理训练。数据集的下载链接已在README中提供，用户可通过Google Drive获取完整数据包。

背景与挑战

背景概述

在计算机视觉与具身智能领域，三维场景中物体堆叠的精确计数是评估大型语言模型（LLMs）与视觉语言模型（VLMs）空间推理能力的关键基准。2026年4月10日，由NVIDIA Corporation发布的空间智能数据集（spatial-iq）应运而生，旨在填补合成场景下块状物体堆叠计数任务的标准化评估空白。该数据集通过Isaac Sim模拟器生成超过24万张台面或仓库地面的堆叠场景图像，每张图像均包含精确标注的物体总数、层数与列数元数据，为多模态模型的数值推理与空间感知能力提供了大规模、高精度的训练与测试平台。其采用宽松的CC BY 4.0许可协议（含商业用途），显著推动了机器人操作、仓储自动化等领域的基础研究进展。

当前挑战

该数据集所解决的核心领域挑战在于：当前LLM与VLM在处理物理世界中物体堆叠的遮挡、透视畸变与复杂排列时，常出现计数偏差与视觉-语言表征对齐困难，亟需标准化、可量化的基准以评估模型的空间数值推理能力。构建过程中，技术挑战集中于合成场景的真实性与多样性平衡——需模拟不同光照、堆叠稳定性与背景纹理以覆盖现实边缘情况，同时确保241,185个样本的几何一致性标注（无遮挡物体计数遗漏）。此外，元数据与图像间的精确同步、大规模仿真渲染效率（54.57 GB存储）以及避免模型过拟合于固定堆叠模式，均对数据生成管线提出了严苛要求。

常用场景

经典使用场景

在三维视觉与机器人感知领域，spatial-iq数据集凭借其精细合成的堆叠物体场景图像与元数据标注，成为评估与训练多模态大模型（如LLMs和VLMs）在空间计数任务上表现的核心基准。该数据集通过模拟桌面与仓库地面场景中的多物体堆叠结构，为模型提供丰富的遮挡、排列与层次信息，从而检验其对三维空间中物体数量、层级关系及列数分布的感知能力。研究者可利用该数据集系统性地评估模型在复杂堆叠环境下计数的鲁棒性，并推动视觉语言模型从简单识别迈向细粒度空间推理。

实际应用

在实际应用层面，spatial-iq数据集所支撑的计数能力对物流仓储、智能制造及自动化拣选系统具有直接价值。仓库中托盘货物的堆叠数量统计、生产线物料的批量盘点、以及机器人对货架层叠物品的抓取规划，均需依赖模型对堆叠物体数量的精确判断。借助该数据集训练的模型，可以赋能机器人在非结构化环境中自主执行库存审计、订单拣选和缺陷检测，从而显著提升运营效率并降低人工成本。此外，该数据集的合成属性使其易于扩展，可适应不同行业场景中堆叠形态的多样性需求。

衍生相关工作

spatial-iq数据集的发布催生了一系列围绕空间推理与视觉计数的衍生研究。在模型架构层面，研究者提出基于注意力机制的堆叠计数网络，专门处理物体间深度遮掩与排列依赖关系。在预训练策略上，该数据集被用于微调大规模视觉语言模型，旨在增强其对空间数量概念的泛化能力。此外，围绕仿真到现实迁移的研究也借助该数据集验证模型在合成场景与真实仓库图像间的适应性，从而推动领域自适应技术的发展。这些工作共同构筑了以堆叠场景计数为核心的研究生态，深化了智能体对结构化三维世界的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集