ChangingGrounding

github2025-10-19 更新2025-10-20 收录

下载链接：

https://github.com/hm123450/ChangingGroundingBenchmark

下载链接

链接失效反馈

官方服务：

资源简介：

ChangingGrounding是第一个专门针对变化场景中3D视觉定位的基准数据集，旨在衡量智能体如何利用过去观察、仅在需要时进行探索，并在变化场景中提供精确的3D边界框。该数据集基于3RScan和ReferIt3D构建，支持记忆驱动的3D视觉定位研究

ChangingGrounding is the first benchmark dataset specifically tailored for 3D visual grounding in changing scenarios, which aims to evaluate how AI Agents leverage past observations, explore only when necessary, and generate precise 3D bounding boxes within these scenarios. This dataset is constructed based on 3RScan and ReferIt3D, and supports research on memory-driven 3D visual grounding.

创建时间：

2025-10-15

原始信息汇总

ChangingGrounding: 3D Visual Grounding in Changing Scenes 数据集概述

数据集基本信息

数据集名称: ChangingGrounding
研究领域: 3D视觉定位
核心问题: 在动态变化场景中基于自然语言指令定位物体

数据集特点

首个专门针对变化场景的3D视觉定位基准数据集
强调智能体利用过往观察、按需探索并精确定位3D边界框的能力
突破传统3D视觉定位方法对重建和最新点云数据的依赖假设

技术贡献

提出Mem-ChangingGrounder方法作为强参考基准
方法特点：零样本、结合跨模态检索与轻量级多视图融合
实现流程：查询对象类型识别→相关记忆检索引导行动→场景中高效探索目标→无效操作回退→目标多视图扫描→多视图证据融合投影获取精确边界框

评估结果

Mem-ChangingGrounder在ChangingGrounding基准上达到最高定位精度
显著降低探索成本

数据来源

基于3RScan和ReferIt3D数据集构建

许可证

采用Creative Commons Attribution-NonCommercial 4.0 International License
非商业使用许可

获取方式

论文发布日期：2025年10月17日
代码和基准将在论文接受后发布

联系方式

Miao Hu: 2464882060@stu.xjtu.edu.cn
Runsen Xu: runsxu@gmail.com

搜集汇总

数据集介绍

构建方式

在三维视觉与机器人交互领域，场景动态变化对视觉定位提出了新的挑战。ChangingGrounding数据集基于3RScan和ReferIt3D两大开源数据集构建，通过系统整合动态场景中的多视角观测数据，构建了首个专注于场景变化下的三维视觉定位基准。该数据集采用跨模态对齐技术，将自然语言指令与三维空间中的物体定位建立精确映射，同时引入时序记忆机制，使模型能够利用历史观测信息应对场景变化。

使用方法

使用该数据集时，研究者可通过其提供的标准评估流程验证模型在动态场景下的定位性能。数据集支持零样本学习方法，如Mem-ChangingGrounder所展示的跨模态检索与多视角融合策略。用户首先需要加载场景的点云数据和对应的语言指令，然后利用记忆检索机制识别目标物体类型，通过多视角扫描获取目标的空间信息，最终生成精确的三维边界框。数据集还提供了完整的评估指标，包括定位准确率和探索成本等关键参数。

背景与挑战

背景概述

三维视觉定位作为计算机视觉与机器人感知交叉领域的核心任务，旨在通过自然语言指令在三维场景中精准定位目标物体。由西安交通大学、浙江大学、香港中文大学及上海人工智能实验室等机构联合研发的ChangingGrounding数据集，于2025年正式提出，其创新性在于突破传统静态场景假设，首次将动态环境下的持续感知与记忆利用机制纳入研究框架。该数据集基于3RScan与ReferIt3D等权威数据构建，推动三维视觉定位从被动重构向主动探索范式转变，为具身智能与自主机器人系统在真实复杂环境中的部署奠定理论基础。

当前挑战

动态场景下的三维视觉定位面临双重挑战：在领域问题层面，传统方法依赖完整且更新的点云数据，难以应对物体移动、遮挡或场景结构变化导致的定位失效，亟需解决跨时间维度的记忆融合与增量感知问题；在构建过程中，需协调多源异构数据的时间对齐与空间标注一致性，同时设计能够模拟真实环境动态变化的评估指标，确保基准数据既能反映现实复杂性，又具备可复现性。

常用场景

解决学术问题

该数据集主要解决了三维视觉定位在动态场景中面临的若干关键学术挑战。传统方法通常假设场景保持静态且拥有完整的点云重建，这在现实应用中往往难以满足。ChangingGrounding通过引入场景变化因素，推动了记忆利用、主动探索和精确定位的协同研究，为开发适应真实环境变化的稳健三维视觉定位系统提供了理论支撑和实践验证，显著提升了该领域研究的实用价值。

实际应用

在服务机器人、自动驾驶等实际应用场景中，ChangingGrounding数据集展现出重要价值。服务机器人需要在家居环境持续变化的条件下准确理解用户指令并定位目标物体；自动驾驶系统则需在道路场景动态演进过程中可靠识别交通参与者。该数据集通过模拟这些现实挑战，为开发能够在复杂动态环境中稳定工作的智能系统提供了关键测试基准，直接支撑相关技术的产业化落地。

数据集最近研究