Anywhere3D-Bench
收藏arXiv2025-06-05 更新2025-06-07 收录
下载链接:
https://anywhere-3d.github.io
下载链接
链接失效反馈官方服务:
资源简介:
Anywhere3D-Bench是一个全面的3D视觉定位基准数据集,包含2632个引用表达式和3D边界框对,涵盖了四个不同的定位级别:人类活动区域、超出对象的未占用空间、场景中的单个对象以及细粒度的对象部分。该数据集由BIGAI、清华大学、北京大学和北京理工大学的研究人员创建,旨在评估和推动3D视觉定位模型在多级别场景下的定位能力,特别是对于超出对象级别的空间区域和细粒度对象部分的定位。数据集来源于ScanNet、MultiScan、3RScan和ARKitScenes的验证集,通过人类编写的提示和GPT-4生成引用表达式,并由人工进行标注和验证,确保每个引用表达式都能精确地定位到一个目标3D边界框。
Anywhere3D-Bench is a comprehensive 3D visual grounding benchmark dataset containing 2632 pairs of referring expressions and 3D bounding boxes, covering four distinct grounding levels: human activity areas, unoccupied spaces beyond objects, individual objects in the scene, and fine-grained object parts. Developed by researchers from BIGAI, Tsinghua University, Peking University, and Beijing Institute of Technology, this dataset aims to evaluate and advance the grounding capabilities of 3D visual grounding models across multi-level scenarios, with a particular focus on spatial regions beyond object-level boundaries and fine-grained object parts. The dataset is derived from the validation splits of ScanNet, MultiScan, 3RScan, and ARKitScenes. Referring expressions were generated using human-written prompts and GPT-4, followed by manual annotation and verification to ensure that each referring expression can accurately pinpoint a corresponding target 3D bounding box.
提供机构:
清华大学, 北京大学, 北京理工大学
创建时间:
2025-06-05
搜集汇总
数据集介绍
构建方式
Anywhere3D-Bench的构建采用了多阶段数据生成与验证流程。研究团队首先基于ScanNet、MultiScan、3RScan和ARkitScenes四个3D场景数据集的验证集,从276个场景中提取基础数据。通过精心设计的提示模板,利用GPT-4o生成涵盖四个视觉定位层级(区域、空间、物体和部件)的多样化指代表达式。为确保数据质量,构建了包含3D场景可视化、边界框编辑和距离测量工具的人机交互标注界面,由标注人员对生成的表达式进行迭代修正,并精确标注对应的3D边界框,最终形成2,632个指代表达式-3D边界框对。
使用方法
使用Anywhere3D-Bench时,建议采用分层次评估策略。对于LLMs,可输入包含物体位置、尺寸的场景图文本;对于MLLMs,需额外提供鸟瞰图和场景视频关键帧作为视觉输入。评估指标采用考虑几何模糊性的改进版IoU计算方式:区域级使用二维IoU,小尺寸物体采用带容差阈值的位置敏感度量。针对最具挑战性的空间级和部件级任务,可通过融入全局坐标系、物体朝向等空间线索,以及选择与指代表达式相关的关键视频帧来提升模型表现。数据集的层级划分也支持针对性地开发空间关系推理、细粒度感知等专项能力评估方案。
背景与挑战
背景概述
Anywhere3D-Bench是由BIGAI、清华大学、北京大学和北京理工大学的研究团队于2025年提出的一个全面的3D视觉定位基准数据集。该数据集包含2,632个参考表达-3D边界框对,涵盖了四个不同层次的视觉定位:人类活动区域、未占用的空间、场景中的单个对象以及细粒度的对象部分。这一数据集的创建旨在解决现有3D视觉定位模型在超越对象级别语义理解和推理能力上的不足,特别是在空间关系和细粒度对象部分定位方面的挑战。Anywhere3D-Bench的推出为3D视觉与语言学习领域提供了新的研究方向,推动了多模态大语言模型(MLLMs)和3D视觉定位模型在复杂空间场景中的理解和推理能力的提升。
当前挑战
Anywhere3D-Bench面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,空间级别和部分级别的视觉定位任务最具挑战性,要求模型具备全面的空间推理能力和细粒度的对象感知能力。例如,空间级别任务需要模型理解开放空间中的空间关系和距离,而部分级别任务则要求模型首先识别相关对象,然后推理其细粒度结构以预测边界框的大小和位置。在构建过程中,挑战包括确保参考表达与3D边界框对的准确性和多样性,以及设计能够评估模型在不同视觉定位层次上综合能力的表达类型。此外,数据生成和人工标注过程中的精确性和一致性也是重要的挑战。
常用场景
经典使用场景
Anywhere3D-Bench作为首个多粒度三维视觉定位基准,在计算机视觉与空间智能领域具有开创性意义。该数据集通过2632组指代表达-3D边界框对,系统评估模型在区域、空间、物体和部件四个层级的三维场景理解能力。其典型应用场景包括智能家居系统中的物体定位(如'将台灯移至沙发左侧0.5米处')、增强现实中的空间标注(如'在墙面中央安装40英寸电视')以及机器人操作任务中的部件级交互(如'将书桌右侧抽屉拉开0.3米')。
解决学术问题
该数据集突破了传统3D视觉定位局限于物体层级的桎梏,首次系统性地解决了空间关系推理(如轨迹追踪和距离计算)、细粒度物体部件识别(如抽屉把手定位)以及功能区域理解(如划分办公区与休息区)三大核心学术难题。实验表明现有模型在空间级任务(22.94%准确率)和部件级任务(33.68%)上的显著性能差距,揭示了三维场景理解中空间推理与细粒度感知的能力缺陷,为相关研究提供了明确的技术突破方向。
实际应用
在智能家居领域,该数据集支持AR家具布置系统实现'将1.5米高的书架置于门右侧墙面'的精准定位;在工业机器人场景中,可训练机械臂完成'取出工具箱第二层扳手'的精细操作;对于盲人导航系统,则能解析'前方1米右转后靠墙的消防栓'等复杂空间指令。其多粒度标注特性尤其适用于需要结合宏观布局与微观操作的混合现实应用,如医疗手术导航中的器械定位与空间区域划分。
数据集最近研究
最新研究方向
随着三维视觉与语言理解的深度融合,Anywhere3D-Bench作为首个支持多层次三维视觉定位的基准测试,正在推动该领域突破传统物体级定位的局限。最新研究聚焦于空间级和部件级两大挑战性任务:在空间级任务中,模型需对非物体占据的三维空间进行距离建模和关系推理,当前最优模型准确率仅为22.94%;在部件级任务中,要求模型在精确定位母体对象基础上解析其细粒度结构特征,最优成绩也仅达33.68%。这些发现揭示了多模态大语言模型在三维空间认知方面的关键缺陷,特别是从二维视觉输入理解三维空间关系的能力不足。该数据集正促进三维场景理解从静态物体识别向动态空间推理的范式转变,为增强现实、机器人导航等应用提供更贴近人类认知的评估体系。
相关研究论文
- 1From Objects to Anywhere: A Holistic Benchmark for Multi-level Visual Grounding in 3D Scenes清华大学, 北京大学, 北京理工大学 · 2025年
以上内容由遇见数据集搜集并总结生成



