Ambi3D
收藏arXiv2026-01-10 更新2026-01-13 收录
下载链接:
https://jiayuding031020.github.io/ambi3d/
下载链接
链接失效反馈官方服务:
资源简介:
Ambi3D是由北京大学团队构建的大规模3D指令歧义检测基准数据集,包含703个真实3D场景和22,081条人工标注指令,其中52.5%为歧义指令。数据覆盖实例、属性、空间和动作四类歧义类型,平均指令长度8.08词,通过ScanQA转换、合成生成和专家编写三种方式构建,并经过多阶段人工验证。该数据集旨在推动开放词汇3D场景中指令客观歧义性的研究,为医疗、家居等安全关键领域的 embodied AI 系统提供可靠性保障。
Ambi3D is a large-scale 3D instruction ambiguity detection benchmark dataset developed by a research team at Peking University. It comprises 703 real 3D scenes and 22,081 manually annotated instructions, with 52.5% of them being ambiguous instructions. The dataset covers four categories of ambiguities: instance-level, attribute-related, spatial, and action-related ambiguities. The average length of the instructions is 8.08 words. It was constructed through three approaches: ScanQA conversion, synthetic generation, and expert compilation, and has undergone multi-stage manual validation. This dataset aims to promote research on objective ambiguity of instructions in open-vocabulary 3D scenarios, and provides reliability guarantees for embodied AI systems in safety-critical fields such as healthcare and home applications.
提供机构:
北京大学·电子与计算机工程学院
创建时间:
2026-01-10
原始信息汇总
Open-Vocabulary 3D Instruction Ambiguity Detection 数据集概述
数据集基本信息
- 数据集名称:Ambi3D
- 任务定义:Open-Vocabulary 3D Instruction Ambiguity Detection(开放词汇3D指令歧义检测)
- 核心任务:模型必须判断在给定的3D场景中,一条指令是否具有单一、明确的含义。
数据集规模与构成
- 3D场景数量:超过700个
- 指令数量:约22,000条
- 场景多样性:多样化的3D场景
研究背景与动机
- 研究背景:在安全关键领域(如手术场景),语言歧义可能导致严重后果(例如,模糊指令“把那个小瓶递给我”可能迫使机器人在无害物质和致命物质之间做出选择)。
- 现有问题:大多数具身AI研究忽视指令歧义问题,假设指令是清晰的,并专注于执行而非确认。
- 根本风险:现有模型旨在为假定有效的输入找到“正确答案”,缺乏识别输入本身是“坏问题”的内在机制。
- 核心目标:构建一个真正可靠的系统,使其能够识别歧义并主动寻求澄清,而不是盲目猜测。
基准测试与挑战
- 基准作用:Ambi3D是为此任务构建的大规模基准。
- 关键发现:最先进的3D大语言模型(LLMs)难以可靠地判断指令是否具有歧义。
相关方法与框架
- 提出框架:AmbiVer(Ambiguity Verifier,歧义验证器)
- 框架特点:两阶段框架,将场景感知与逻辑推理解耦。
- 感知阶段:将原始场景和指令转换为一组结构化证据,在多个视角上几何统一潜在的指代对象。
- 推理阶段:将此结构化证据传递给零样本视觉语言模型(VLM)进行逻辑判定。
- 框架有效性:大量实验证明了该任务具有挑战性,以及AmbiVer框架的有效性。
研究目标与意义
- 研究意义:为更安全、更可信的具身AI铺平道路。
- 数据与代码:数据集和代码将公开提供。
论文信息
- 论文标题:AmbiVer: Open-Vocabulary 3D Instruction Ambiguity Detection
- 作者:Jiayu Ding, Haoran Tang, Ge Li*
- 所属机构:北京大学电子与计算机工程学院
- 通讯作者:Ge Li
- 论文状态:arXiv预印本(2026年)
搜集汇总
数据集介绍

构建方式
在具身智能领域,指令的模糊性可能引发严重的安全风险,而现有研究多集中于指令的执行而非其明确性验证。为填补这一关键空白,Ambi3D数据集通过精心设计的构建流程得以创建。其构建过程融合了多源指令获取与严格的人工标注:首先,基于ScanQA数据集的高质量人标注问答对,通过大语言模型框架自动转化为可执行指令,奠定了真实语义基础;其次,利用基于ScanNet场景对象元数据的提示工程,系统生成了涵盖实例、属性、空间及动作四类模糊性的合成指令;此外,为确保模型鲁棒性,还引入了由专家人工编写的表面模糊但实际明确的困难负例指令。所有指令均经过12名具有3D领域背景的标注员多阶段验证,采用严格的一致同意协议进行最终标注,确保了数据的高保真度与可靠性。
使用方法
Ambi3D数据集旨在推动开放词汇3D指令模糊性检测这一新兴任务的研究,其使用方法紧密围绕该任务的二元分类目标展开。研究者可将数据集按场景划分为训练集与测试集,其中训练集包含约90%的指令,用于模型开发与参数学习;测试集则严格保留用于最终评估。评估时,模型需接收3D场景表示与自然语言指令作为输入,并输出“明确”或“模糊”的二元判断。除了整体准确率、精确率、召回率与F1分数等标准指标外,数据集还支持按模糊性子类型(实例、属性、空间、动作)及明确类别进行细粒度性能诊断,有助于深入分析模型在不同模糊性成因上的表现。该数据集不仅可用于评估现有3D大语言模型的模糊性检测能力,也为开发如AmbiVer等新型两阶段推理框架提供了必要的训练与验证基础。
背景与挑战
背景概述
Ambi3D数据集由北京大学电子与计算机工程学院的丁佳宇、唐浩然和李戈等人于2026年构建,旨在解决具身智能领域中的关键安全问题——三维场景中开放词汇指令的歧义性检测。该数据集首次定义了开放词汇三维指令歧义检测任务,要求模型在给定三维场景中判断自然语言指令是否具有单一明确的含义。其核心研究问题聚焦于提升智能体在安全关键领域(如医疗手术、家庭服务与工业自动化)中理解人类指令的可靠性,避免因语言歧义导致灾难性错误。Ambi3D包含超过700个多样化的三维场景与约2.2万条人工标注指令,推动了具身人工智能向更安全、可信赖的方向发展,为三维场景理解与人类-机器交互研究提供了重要基准。
当前挑战
Ambi3D数据集面临的挑战主要体现在任务定义与构建过程两方面。在任务层面,开放词汇三维指令歧义检测要求模型超越传统视觉问答或指代表达理解中的“强制选择”范式,转而进行基于证据的严格逻辑推理,以判定指令在三维环境中的客观唯一性。这需要模型克服场景中物体部分遮挡、视角依赖的空间关系以及动作动词的多义性等复杂因素。在构建过程中,数据采集需平衡指令的真实性、多样性与挑战性,涉及从现有数据集中转化基础指令、利用大语言模型生成合成歧义指令,并设计表面模糊但实际明确的困难负例指令。此外,高质量标注依赖多阶段人工验证与一致性协议,以确保歧义类型分类的准确性,避免标注偏差影响模型评估的可靠性。
常用场景
经典使用场景
在具身智能与机器人交互领域,Ambi3D数据集被广泛用于评估模型在复杂三维场景中识别自然语言指令歧义的能力。该数据集通过涵盖实例、属性、空间与动作等多种歧义类型,为研究者提供了一个系统化的测试平台,以检验模型是否能够基于场景证据准确判断指令的明确性。其典型应用包括训练和验证三维大型语言模型及视觉语言模型,推动模型从被动执行转向主动确认的范式转变。
解决学术问题
Ambi3D数据集针对现有具身智能研究中忽视指令歧义检测的核心缺陷,首次形式化定义了开放词汇三维指令歧义检测任务。它解决了传统模型因隐含指令明确性假设而导致的潜在安全风险,例如在医疗、家庭服务等高风险场景中盲目执行模糊指令可能引发的严重后果。通过提供大规模标注数据,该数据集促进了模型从基于内部主观状态判断向依赖客观场景证据推理的转变,为构建可靠且安全的智能系统奠定了理论基础。
实际应用
在实际应用中,Ambi3D数据集为开发安全关键的机器人系统提供了重要支撑。例如,在手术辅助机器人场景中,系统可利用该数据集训练歧义检测模块,当接收到“递给我托盘里的瓶子”这类模糊指令时,能识别出多个候选目标并主动请求澄清,避免误取致命药物。同样,在工业自动化与增强现实操作中,该技术能提升人机协作的可靠性与信任度,确保指令在三维环境中的唯一可执行性。
数据集最近研究
最新研究方向
在具身智能与三维场景理解领域,Ambi3D数据集的推出标志着对指令模糊性检测的前沿探索。该数据集聚焦于开放词汇三维指令模糊性检测任务,旨在解决安全关键场景中因语言歧义导致的潜在风险。当前研究热点围绕如何使模型在复杂三维环境中准确判断指令是否具有单一明确含义,而非仅专注于执行或消歧。AmbiVer框架通过解耦感知与推理的两阶段架构,利用多视角视觉证据引导视觉语言模型进行零样本裁决,显著提升了模糊性检测的可靠性。这一方向不仅揭示了现有三维大语言模型在模糊性识别上的固有局限,也为构建更安全、可信的具身智能系统奠定了新的评估基准与方法论基础。
相关研究论文
- 1Open-Vocabulary 3D Instruction Ambiguity Detection北京大学·电子与计算机工程学院 · 2026年
以上内容由遇见数据集搜集并总结生成



