EmbodiedNav-Bench
收藏Hugging Face2026-04-12 更新2026-04-13 收录
下载链接:
https://huggingface.co/datasets/EmbodiedCity/EmbodiedNav-Bench
下载链接
链接失效反馈官方服务:
资源简介:
EmbodiedNav-Bench 是一个面向目标的具身导航基准数据集,用于评估城市3D空域中的空间行动。该数据集包含5,037条高质量导航轨迹,每条轨迹包含自然语言导航目标、初始无人机姿态、目标位置和真实3D轨迹。数据集适用于评估具身导航、空间推理和多模态决策模型在城市空域场景中的表现。数据字段包括场景文件夹标识符、初始无人机世界位置和方向、任务描述、目标位置以及真实轨迹点等。数据集采用CC-BY-4.0许可发布。
创建时间:
2026-04-09
搜集汇总
数据集介绍

构建方式
在具身导航领域,EmbodiedNav-Bench的构建采用了严谨的数据采集流程。该数据集包含5,037条高质量导航轨迹,每条轨迹对应一个城市三维空域中的导航任务。数据采集过程基于真实世界模拟环境,通过人工方式记录无人机的初始位姿、目标位置以及自然语言描述的任务目标,同时收集了精确的地面真实三维轨迹点序列。这种构建方式确保了数据在空间动作评估方面的可靠性与真实性,为模型提供了丰富的空间推理与多模态决策场景。
特点
EmbodiedNav-Bench的显著特点在于其专注于城市空域中的目标导向导航,融合了自然语言指令与三维空间动作的对应关系。数据集每条样本均包含完整的空间状态信息,如无人机起始位置与姿态、目标坐标以及详细的地面真实轨迹,支持对模型的空间推理与多模态理解能力进行细致评估。其结构化字段设计兼顾了学术研究与实践应用的需求,既提供了便于浏览的Parquet格式,也保留了用于标准评估的PKL文件,确保了数据在可视化与分析中的高效利用。
使用方法
使用EmbodiedNav-Bench时,研究人员可通过加载数据集中的PKL文件作为标准评估数据源,依据GitHub项目仓库提供的仿真器设置与评估脚本进行模型测试。数据集支持在具身导航、空间推理及多模态决策等任务中验证模型性能,用户可结合自然语言目标描述与三维轨迹数据,量化模型在复杂城市空域环境中的导航准确性与决策合理性。这种使用方法有助于推动具身智能系统在真实世界场景中的能力提升。
背景与挑战
背景概述
EmbodiedNav-Bench 是由 Baining Zhao 等研究人员于 2026 年提出的一个面向目标驱动的具身导航基准数据集,专注于评估智能体在复杂城市三维空域中的空间行动能力。该数据集包含 5,037 条高质量导航轨迹,每条轨迹均配有自然语言描述的目标、无人机初始位姿、目标位置及真实三维轨迹,旨在推动具身人工智能、空间推理与多模态决策在无人机导航等实际场景中的研究与应用。其创建标志着具身导航研究从室内或简化环境向开放、动态城市空域的拓展,为评估大型多模态模型的空间行动能力提供了标准化测试平台,对自动驾驶、机器人导航及增强现实等领域具有重要参考价值。
当前挑战
EmbodiedNav-Bench 致力于解决具身导航在复杂城市空域中的核心挑战,即如何让智能体依据自然语言指令,在连续、高维的三维环境中进行精准、高效的空间推理与路径规划。构建过程中的挑战主要体现在数据采集与标注的复杂性:城市空域场景具有动态性、尺度大及遮挡多变等特点,获取真实、多样且高精度的无人机轨迹数据需克服安全、成本与传感器噪声等实际限制;同时,为每条轨迹生成准确、自然的语言描述,并确保目标位置与轨迹的空间一致性,对人工标注的质量与规模提出了较高要求。
常用场景
经典使用场景
在具身人工智能领域,EmbodiedNav-Bench数据集为评估无人机在复杂城市空域中的导航能力提供了标准化测试平台。该数据集通过五千余条高质量导航轨迹,模拟了真实世界中的三维空间任务,研究者可借助自然语言指令与初始姿态信息,训练或验证模型在动态环境中的路径规划与决策性能,从而推动具身导航技术的基准化发展。
实际应用
在实际应用层面,EmbodiedNav-Bench所构建的场景紧密贴合城市无人机运营需求,如物流配送、基础设施巡检与紧急救援等任务。通过提供真实感强的导航轨迹与目标描述,该数据集能够支撑自动驾驶无人机系统的开发与测试,提升其在复杂空域中理解指令、规避障碍并高效抵达目标的能力,为智慧城市与低空经济的落地提供关键技术验证依据。
衍生相关工作
围绕EmbodiedNav-Bench,学术界已衍生出一系列聚焦于具身导航与空间推理的经典研究工作。这些研究通常利用该数据集的轨迹与语言对,开发端到端的强化学习框架或多模态融合模型,以提升无人机在三维环境中的泛化性能。同时,该基准也激发了针对城市空域仿真平台、轨迹预测算法以及人机协作导航系统的创新探索,形成了跨计算机视觉、自然语言处理与机器人学的交叉研究脉络。
以上内容由遇见数据集搜集并总结生成



