zanshiyincang

Hugging Face2025-05-15 更新2025-05-16 收录

下载链接：

https://huggingface.co/datasets/miao1108316/zanshiyincang

下载链接

链接失效反馈

官方服务：

资源简介：

Changing Grounding Benchmark是一个基于3RScan数据集构建的视觉定位数据集，旨在研究变化场景中的三维视觉定位。它包含了标准化的坐标和重新渲染的RGB-D图像，以及266,916个空间关系注释。每个注释行代表一个独特的空间引用表达式，包括场景的唯一标识符、目标对象ID、干扰物ID、语言引用表达式、表达式的唯一ID、高级空间关系类型、具体空间关系、目标对象类别、锚点对象类别和ID、目标对象是否在初始扫描中等信息。

创建时间：

2025-05-12

原始信息汇总

Changing Grounding Benchmark 数据集概述

核心特性

处理的3RScan数据集
- 标准化坐标：
  - 包含在align.zip中
- 重新渲染的RGB-D图像：
  - 分辨率：1296×968
  - 相机内参：fx=1169.6, fy=1167.1, cx=646.3, cy=489.9

266,916条空间关系标注集

每行代表一个独特的空间指代表达式，包含以下列：

列名	类型	描述	示例
`scan_id`	UUID	3D场景的唯一标识符	`8eabc41a-5af7-2f32-8677-c1e3f9b04e62`
`target_id`	int	场景中目标对象的ID	`23`
`distractor_ids`	int[]	与目标类别相同但不是目标的对象的ID列表	`[12]`
`utterance`	string	语言指代表达式	`"select the window that is closer to the blinds"`
`stimulus_id`	string	表达式的复合唯一ID	`8eabc41a...-window-2-23-12`
`coarse_reference_type`	enum	高层次空间关系类型	`horizontal`
`reference_type`	string	具体空间关系	`closest`
`instance_type`	string	目标对象类别	`window`
`anchors_types`	string[]	锚对象的类别	`[blinds]`
`anchor_ids`	int[]	锚对象的ID	`[21]`
`initial`	bool	目标是否在初始扫描中	`False`
`base&rescan`	UUID[]	初始扫描和重新扫描成对匹配	`[752cc595...]`

3RScan数据集安装

从 https://github.com/WaldJohannaU/3RScan 下载3RScan数据集
解压sequence.zip并提取图像和信息
运行以下命令： bash python extract.py

渲染工具

描述：使用Nvdiffrast进行渲染
安装：
- 运行环境：Python 3.10.11, pytorch 2.0.1, cuda 11.7
- 安装基础库： bash pip install torch==2.0.1 torchvision==0.15.2 torchaudio==2.0.2 --index-url https://download.pytorch.org/whl/cu118 cd nvdiffrast_tool pip install -r requirements.txt
- 安装nvdiffrast： bash cd nvdiffrast sudo apt-get update && DEBIAN_FRONTEND=noninteractive sudo apt-get install -y --no-install-recommends pkg-config libglvnd0 libgl1 libglx0 libegl1 libgles2 libglvnd-dev libgl1-mesa-dev libegl1-mesa-dev libgles2-mesa-dev cmake curl export CUDA_HOME=/usr/local/cuda pip install -e . cd ..
使用： bash cd nvdiffrast cd nvdiffrast_tool python rerenderimages.py

数据集可用性与维护

可通过huggingface访问
定期更新和维护以确保数据的准确性和相关性
禁止商业使用或任何可能危害社会的用途

致谢

感谢3RScan和nvdiffrast的开源库和数据集对本项目的支持。

搜集汇总

数据集介绍

构建方式

在三维场景理解领域，zanshiyincang数据集基于3RScan数据集进行深度重构，通过标准化坐标系统与高精度渲染技术构建而成。其核心处理流程包含坐标对齐与图像重渲染两个关键环节：坐标数据经align.zip文件统一规范化，确保空间关系计算的几何一致性；同时采用Nvdiffrast可微分渲染框架，以1296×968分辨率重新生成RGB-D图像序列，并配备精确的相机内参（fx=1169.6, fy=1167.1, cx=646.3, cy=489.9），为动态场景分析提供物理准确的视觉基础。

特点

该数据集最显著的特征在于其大规模的空间关系标注体系，涵盖266,916条具有语言学意义的空间指代表达。每条标注不仅包含目标物体与干扰物的精确定位，还通过多维度语义标签深化空间关系描述：coarse_reference_type字段划分宏观空间关系类型，reference_type细化具体空间谓词，配合锚物体类别与初始扫描状态标识，形成层次化的语义表达结构。这种设计使得数据集能同时支持物体定位、关系推理和场景演化分析等多维研究任务。

使用方法

研究者可通过HuggingFace平台直接获取数据集主体文件，同时需从3RScan官方仓库下载原始序列数据作为补充。使用前需运行extract.py脚本解压图像与元数据，并通过定制化渲染工具链完成场景可视化。具体实施时，需配置Python 3.10.11与CUDA 11.7环境，安装Nvdiffrast依赖库后执行rerenderimages.py启动重渲染流程。数据集配套的开源基准测试框架提供了完整的验证管线，支持三维视觉定位任务在动态场景中的可复现实验。

背景与挑战

背景概述

三维场景理解作为计算机视觉领域的前沿课题，近年来因增强现实与机器人导航等应用的兴起而备受关注。zanshiyincang数据集基于3RScan扫描序列构建，由研究团队于2023年发布，旨在解决动态环境中空间指代表达的精准定位问题。该数据集通过26万余条标注数据，系统化地捕捉了物体在场景变化过程中的空间关系演化，为三维视觉语言 grounding 任务提供了首个面向连续场景演变的评估基准，显著推动了具身智能与环境交互研究的发展。

当前挑战

在三维视觉与语言融合领域，动态场景中的对象指代面临空间关系模糊性与语境动态性的双重挑战。zanshiyincang需解决目标物体在初始扫描与重扫描间的状态迁移识别，同时应对多锚点物体干扰下的语义消歧问题。数据集构建过程中，团队需克服三维坐标系统标准化、跨序列数据对齐，以及基于Nvdiffrast的高保真渲染等技术难点，其标注体系还需平衡空间关系分类粒度与语言表达自然性之间的张力。

常用场景

经典使用场景

在三维视觉与语言交互领域，zanshiyincang数据集通过26万余条空间关系标注，为模型理解动态场景中的物体定位提供了标准测试平台。研究者常利用其高分辨率RGB-D图像与标准化坐标，训练神经网络解析如“选择靠近百叶窗的窗户”等空间指代表达，有效评估模型在复杂环境下的推理能力。

解决学术问题

该数据集显著推进了动态场景视觉定位研究，解决了传统方法难以处理物体位置变化的瓶颈。通过标注初始扫描与重扫描的对应关系，支持模型学习场景演变规律，为三维视觉语言基础模型提供了验证基准，推动跨模态理解技术的理论突破。

衍生相关工作

基于该数据集衍生的经典研究包括结合Nvdiffrast的可微分渲染框架，以及多模态Transformer架构。这些工作通过端到端训练实现了语言到三维空间的映射，后续研究进一步拓展了时空一致性建模、零样本泛化等方向，形成了动态场景理解的完整技术脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集