NavTrust
收藏arXiv2026-03-20 更新2026-03-21 收录
下载链接:
https://navtrust.github.io
下载链接
链接失效反馈官方服务:
资源简介:
NavTrust是由加州大学河滨分校等机构联合提出的首个统一基准,旨在系统评估VLN和OGN代理在现实损坏条件下的可信度。该数据集基于Habitat-Matterport3D、R2R和RxR数据集构建,包含八类RGB图像损坏(如运动模糊、低光照)、四类深度传感器损坏(如高斯噪声、多路径效应)以及五类指令损坏(如风格变异、恶意提示)。通过对比清洁与损坏场景下的性能差异,该数据集揭示了现有SOTA导航模型的脆弱性,并为开发更鲁棒的具身智能系统提供了标准化测试平台。其创新性在于首次统一了多模态损坏评估框架,重点关注了传统研究忽视的深度传感器退化问题。
提供机构:
加州大学河滨分校·可信自主系统实验室; 密歇根大学; Workday; 南加州大学; 德州农工大学; 利哈伊大学
创建时间:
2026-03-20
原始信息汇总
NavTrust: Benchmarking Trustworthiness for Embodied Navigation
数据集概述
NavTrust是一个统一的基准测试,旨在系统性地评估具身导航模型的信任度。它通过在现实场景中破坏输入模态(包括RGB、深度和指令),并评估其对导航性能的影响,以揭示现有模型在真实世界条件下的鲁棒性差距。
关键信息
- 研究领域:具身导航,主要包括视觉语言导航(VLN)和面向目标的导航(OGN)。
- 核心问题:现有工作主要在理想条件下评估模型性能,忽视了现实环境中可能出现的破坏,导致模型在轻微的语言扰动、低光照或运动模糊等情况下表现不可靠。
- 基准测试内容:NavTrust首次在统一框架中,将具身导航智能体暴露于多样化的RGB-Depth破坏和指令变体中。
- 评估方法:对七种最先进的方法进行了广泛评估,揭示了在现实破坏下成功率的大幅下降。
- 缓解策略:系统评估了四种不同的缓解策略以增强鲁棒性:数据增强、师生知识蒸馏、保护性大语言模型(LLM)和轻量级适配器调优。
评估结果
- 破坏类型:包括RGB破坏、深度破坏和指令破坏。
- 性能指标:成功率(SR)和SPL。同时使用基于SR和SPL的性能保持分数(PRS)来量化对破坏的鲁棒性。
- 缓解策略效果:在R2R数据集上测试了数据增强、师生蒸馏和适配器等策略对不同破坏(如低光照)下成功率的影响。同时评估了保护性LLM在R2R数据集上针对不同指令变体的成功率。
引用信息
- 标题:NavTrust: Benchmarking Trustworthiness for Embodied Navigation
- 作者:Yash Chaudhary, Huaide Jiang, Yuping Wang, Raghav Sharma, Manan Mehta, Lichao Sun, Zhiwen Fan, Zhengzhong Tu, Jiachen Li
- 年份:2026
- 论文链接:https://openreview.net/forum?id=ANbAB0tXv3
- 代码状态:即将发布
相关机构
- 加州大学河滨分校
- 密歇根大学
- Workday
- 南加州大学
- 利哈伊大学
- 德州农工大学
- 可信自主系统实验室(TASL)
搜集汇总
数据集介绍

构建方式
NavTrust基准的构建植根于对具身导航系统鲁棒性评估的迫切需求,其核心在于系统性地引入多模态输入扰动。该数据集以标准化的视觉语言导航(VLN)和物体目标导航(OGN)任务为基础,通过在Habitat-Matterport3D、R2R及RxR等成熟数据集上施加可控的输入破坏来构建。具体而言,它在感知层面引入了八种模拟真实相机故障的RGB图像破坏(如运动模糊、低光照、镜头污渍)和四种深度传感器破坏(如高斯噪声、数据缺失、多路径干扰),以模拟室内环境的常见挑战。在语言层面,则通过指令风格改写、关键词强调、令牌掩码以及黑白盒恶意提示注入等方式,系统地评估模型对自然语言指令扰动的敏感性。这种构建方式确保了每个扰动情景都有其干净的对应版本,从而支持对性能下降进行原则性分析。
特点
NavTrust基准的突出特点在于其首次在统一框架下对VLN与OGN任务进行可信赖性评估的全面性。它不仅涵盖了广泛的RGB图像破坏,更开创性地引入了一套深度传感器破坏类型,填补了现有基准在几何感知鲁棒性评估上的空白。在语言维度,该基准超越了简单的词汇替换,囊括了从风格多样性到对抗性提示注入的多种指令破坏形式,深度探测模型的语言理解与抗干扰能力。此外,NavTrust基准设计严谨,通过将两种导航任务的起点与目标位置在场景中进行对齐,确保了不同范式智能体能在完全相同的空间与环境条件下接受评估,从而实现了跨任务的公平性能比较与深入分析。
使用方法
NavTrust基准的使用旨在系统评估与提升具身导航模型的鲁棒性。研究人员首先在基准提供的干净与受破坏输入(包括RGB-D图像及自然语言指令)上测试其导航模型,利用成功率(SR)、成功率加权路径长度(SPL)及性能保持分数(PRS)等标准化指标量化模型性能。通过对比分析在不同破坏类型下的性能退化,可以精准定位模型的脆弱环节。更进一步,该基准支持对多种鲁棒性增强策略进行实证评估,包括破坏感知数据增强、师生知识蒸馏、轻量级适配器微调以及安全大语言模型指令净化。用户可遵循基准提供的标准化协议,在仿真环境中训练和验证其模型,并将观察到的鲁棒性趋势通过真实机器人平台(如RealMan机器人)进行部署验证,从而推动开发在非理想现实条件下仍能保持可靠性能的具身导航系统。
背景与挑战
背景概述
在具身智能导航领域,视觉语言导航和物体目标导航是两大核心任务,旨在使智能体能够依据自然语言指令或特定物体目标在复杂三维环境中自主移动。然而,现有研究多聚焦于理想化输入条件下的模型性能评估,忽视了现实场景中普遍存在的传感器噪声与指令变异问题。为填补这一空白,由加州大学河滨分校可信自主系统实验室等机构的研究团队于2026年提出了NavTrust基准测试。该基准首次在统一框架内系统性地引入了针对RGB图像、深度传感器及自然语言指令的多样化模拟损坏,旨在全面评估导航智能体在非理想条件下的鲁棒性与可信赖性,为构建更安全可靠的现实世界导航系统提供了关键的评估工具与研究路线图。
当前挑战
NavTrust基准致力于解决具身导航系统在现实部署中面临的核心可信赖性挑战。其首要挑战在于评估模型对多模态输入损坏的鲁棒性:在感知层面,需应对运动模糊、低光照、传感器失效等多样化的RGB与深度数据损坏,这些损坏会扭曲环境几何与语义信息,导致路径规划失败;在语言层面,需处理指令的风格变异、词汇掩码及恶意提示注入,这些干扰会误导智能体的高层决策意图。其次,在基准构建过程中,挑战体现在如何设计既真实可控又系统全面的损坏模拟,并确保其在视觉语言导航与物体目标导航两种范式下的公平可比性,同时建立从仿真到真实世界的有效性能迁移验证链路。
常用场景
经典使用场景
在具身导航研究领域,NavTrust基准测试的核心应用场景在于系统性地评估智能体在感知与语言模态遭受现实世界干扰时的鲁棒性。该数据集通过引入精心设计的RGB图像退化、深度传感器失真以及自然语言指令扰动,模拟了机器人部署中常见的视觉噪声、传感器故障和指令歧义等挑战。研究人员利用NavTrust能够量化现有导航模型在非理想条件下的性能衰减,从而揭示其内在脆弱性,为构建更可靠的导航系统提供关键诊断依据。
衍生相关工作
NavTrust的发布催生了一系列专注于提升导航系统鲁棒性的衍生研究。基于其揭示的脆弱性,学者们探索了多种增强策略,例如针对感知模态的污染感知数据增强、师生知识蒸馏以及参数高效的适配器微调技术;针对语言模态,则衍生出基于大语言模型的指令净化与规范化方法。这些工作不仅深化了对导航智能体失效模式的理解,更推动了鲁棒性增强技术从仿真到真实机器人的有效迁移,为构建下一代可信赖的具身人工智能系统提供了明确的技术路线图。
数据集最近研究
最新研究方向
在具身导航领域,NavTrust基准的提出标志着对智能体鲁棒性与可信赖性的评估进入了系统化、多模态的新阶段。该研究聚焦于现实世界中普遍存在的输入模态退化问题,系统性地引入了涵盖RGB图像、深度传感器及自然语言指令的多样化腐蚀类型,从而揭示了现有先进导航模型在非理想条件下的性能脆弱性。前沿探索方向主要集中于通过数据增强、师生蒸馏、轻量化适配器及安全大语言模型等四种互补性缓解策略,提升智能体对感知与语言干扰的抵御能力。这一工作不仅为社区提供了首个统一的可信度评估框架,更通过仿真与真实机器人部署的验证,指明了构建在复杂动态环境中仍能保持稳定性能的可靠导航系统的关键技术路径,对推动具身人工智能迈向实际应用具有深远意义。
相关研究论文
- 1NavTrust: Benchmarking Trustworthiness for Embodied Navigation加州大学河滨分校·可信自主系统实验室; 密歇根大学; Workday; 南加州大学; 德州农工大学; 利哈伊大学 · 2026年
以上内容由遇见数据集搜集并总结生成



