HUGE-Bench

Name: HUGE-Bench
Creator: 墨尔本大学; MBZUAI; Navlyn; 悉尼大学
Published: 2026-03-20 18:08:42
License: 暂无描述

arXiv2026-03-20 更新2026-03-24 收录

下载链接：

https://jingyu198.github.io/HUGE_Bench

下载链接

链接失效反馈

官方服务：

资源简介：

HUGE-Bench是由墨尔本大学和MBZUAI等机构联合开发的高级别无人机视觉-语言-动作任务基准测试数据集。该数据集包含4个真实场景的数字孪生环境、8类高级任务及256万米轨迹数据，采用3D高斯泼溅与网格对齐的混合表示技术，兼具照片级渲染能力与物理碰撞检测功能。数据通过DJI M400无人机在6.45平方公里区域采集，结合LLM标注与人工校验流程构建，支持过程导向的轨迹覆盖率和碰撞感知指标评估，主要用于测试无人机在简短指令下的语义理解、多阶段任务分解及安全执行能力。

提供机构：

墨尔本大学; MBZUAI; Navlyn; 悉尼大学

创建时间：

2026-03-20

原始信息汇总

HUGE-Bench 数据集概述

数据集名称

HUGE-Bench

核心简介

HUGE-Bench 是一个面向高级无人机视觉-语言-动作任务的基准测试，旨在测试智能体能否解释简洁的语言指令，并执行复杂、面向过程且具有安全意识的轨迹。

主要特点

任务类型：高级无人机视觉-语言-动作任务。
核心挑战：将简洁的高级命令落地为安全的多阶段行为，侧重于过程导向的执行与安全感知。
与现有基准的区别：不同于现有主要关注长篇幅、分步式路线描述和目标中心评估的无人机视觉语言导航基准，本基准更贴近需将简短高级指令转化为安全多阶段行为的真实操作场景。

数据集构成

场景数量：4个真实世界数字孪生场景。
任务数量：8个高级任务。
轨迹总长度：2.56百万米。
环境表示：基于对齐的3D高斯溅射-网格表示，结合了照片级真实感渲染与支持碰撞检测的几何结构，用于可扩展的生成和碰撞感知评估。

评估指标

引入过程导向和碰撞感知的指标，用于评估过程保真度、终端精度和安全性。

实验发现

对代表性前沿视觉-语言-动作模型的实验揭示了其在高级语义完成和安全执行方面存在显著差距，凸显了HUGE-Bench作为高级无人机自主性诊断测试平台的价值。

高级任务示例

飞到喷泉喷水池塘上方80米处。
检查视野中的小路，朝顶部飞行。
飞越当前的建筑群。
围绕条纹人行横道螺旋下降。
以20米半径环绕篮球场飞行。
在80米高度绕直升机停机坪飞行一圈。
在视野右上方的田野上空执行测绘任务。
环绕视野右上方的建筑飞行。

搜集汇总

数据集介绍

构建方式

在无人机视觉-语言-动作任务领域，HUGE-Bench的构建采用了从真实世界到数字孪生的系统性流程。研究团队首先利用配备高精度传感器的无人机，在多种典型户外场景中采集大规模航拍数据，覆盖了建筑群、密集城区、农田及道路等多样化环境。基于采集的RGB图像与地理参考位姿，团队重建了对齐的3D高斯泼溅与网格混合表示——3DGS负责提供逼真的视觉渲染，而网格则支撑物理碰撞检测与深度查询。通过结合大语言模型的空间描述生成与人工标注，该流程自动化生成了包含空间指向性的高层级自然语言指令。最终，在Isaac Sim仿真平台中，基于任务规则与运动规划算法生成了大规模、多模态的轨迹数据，同步记录了RGB、深度、位姿及碰撞信号，形成了总计256万米轨迹的基准数据集。

特点

该数据集的核心特点在于其针对高层级、过程导向的无人机任务设计。与传统的逐点导航基准不同，HUGE-Bench引入了八类具有代表性的高层级任务，例如目标降落、建筑物巡检、区域测绘、多阶段盘旋下降及障碍物感知穿越等。这些任务均通过简洁、可能具有歧义的高层级自然语言指令驱动，要求智能体具备语义理解、子任务分解、三维空间推理及安全执行的综合能力。数据集构建于四个真实场景重建的数字孪生环境之上，其独特的3DGS-网格混合表示同时保障了视觉感知的真实性与物理交互的可执行性。此外，数据集提供了明确的多阶段子任务标注，并设计了面向过程完成度、终端精度与安全性的多维度评估指标，从而能够对模型的高层级语义执行能力进行细粒度诊断。

使用方法

使用HUGE-Bench进行评估时，研究者需在提供的仿真平台中加载对齐的数字孪生场景与标注数据。基准测试要求模型接收当前时刻的视觉观察（如RGB或RGB-D图像）以及一条高层级自然语言指令，并预测出下一时刻的动作指令或状态目标。数据集已划分为训练集、测试可见集与测试未见集，以评估模型在熟悉地标新视角、全新地标及语言表述变化下的泛化能力。评估过程需根据任务类型选用相应的指标：对于过程关键型任务（如巡检、测绘），主要采用轨迹覆盖率来衡量过程完成度；对于目标导向型任务（如降落），则报告成功率；对于涉及安全穿越的任务，需额外计算碰撞率与碰撞感知的路径加权成功率。通过这一标准化协议，可以系统性地衡量不同视觉-语言-动作模型在高层级、长视距、安全约束的无人机任务中的综合表现。

背景与挑战

背景概述

随着无人机在巡检、搜救、基础设施监测等领域的广泛应用，其在复杂三维环境中的自主操作仍面临巨大挑战。传统操作模式依赖人工将高层级意图转化为密集航点与连续低层级控制，过程繁琐且易出错。在此背景下，由墨尔本大学、MBZUAI等机构研究人员于2026年提出的HUGE-Bench基准应运而生，旨在推动无人机高层级视觉-语言-动作（HL-VLA）能力的发展。该基准的核心研究问题聚焦于如何使智能体能够解析简洁的自然语言指令，并安全、准确地执行包含多阶段语义行为的复杂轨迹，从而弥合现有视觉-语言导航（VLN）基准与真实无人机操作需求之间的鸿沟。HUGE-Bench构建于对齐的3D高斯泼溅-网格数字孪生场景之上，包含源自真实世界的四个场景、八项高层级任务以及总长256万米的轨迹数据，为评估无人机在过程保真度、终端精度及安全性等多维度的性能提供了至关重要的诊断性测试平台。

当前挑战

HUGE-Bench旨在解决的领域核心挑战，是提升无人机对高层级、简洁且可能模糊的自然语言指令的理解与执行能力。这要求智能体不仅需完成传统的目标点导航，更要实现隐含的多阶段任务分解、三维空间推理以及过程导向的安全行为执行，其难度远超现有的以详细路线描述和终点评估为主的VLN任务。在数据集构建过程中，研究团队面临多重技术挑战：首要挑战在于创建兼具高真实感渲染与物理可执行碰撞检测的环境表示，为此他们创新性地融合了3D高斯泼溅的逼真渲染能力与网格模型的几何碰撞体，形成了对齐的数字孪生表示。其次，为生成大规模、多样化的轨迹数据，需设计可扩展的从真实世界到仿真的数据采集与生成管线，并确保轨迹在语义上与高层级指令精确对应。最后，制定能够全面评估过程完成度、终端准确性与安全性的新型度量标准（如轨迹覆盖率TCR、碰撞感知成功率CSPL）也是一项关键挑战，以超越仅关注终点成功的传统评估范式。

常用场景

经典使用场景

在无人机自主控制领域，HUGE-Bench数据集为评估高级视觉-语言-动作模型提供了标准化测试平台。该数据集通过构建基于真实场景的3D高斯溅射与网格对齐数字孪生环境，模拟了无人机在复杂三维空间执行高层语义指令的完整流程。其经典使用场景集中于让智能体解析简洁的自然语言指令，并自主分解为多阶段子任务序列，最终生成兼顾语义准确性与飞行安全的轨迹。例如，模型需根据“检查左侧建筑物”这类高层指令，自动完成目标识别、接近、下降、环绕巡检及返回等一系列连贯动作，从而验证其在真实操作场景下的综合决策与执行能力。

衍生相关工作

HUGE-Bench的发布催生了一系列关注高层无人机视觉-语言-动作任务的研究工作。其在环境表示上融合3D高斯溅射渲染与网格碰撞体的混合设计，启发了后续如SAGE-3D等面向具身导航的可执行神经渲染方法。在任务定义上，其将简洁指令关联多阶段子任务的范式，促进了如分层规划与语义子任务分解等新方法的探索。评估方面，其提出的轨迹覆盖率与碰撞感知成功加权路径长度等指标，被后续研究扩展用于更复杂的动态环境与多智能体协同场景。同时，基于该基准对OpenVLA、π系列模型等进行的系统性评测，揭示了现有模型在过程完成度与安全执行方面的显著差距，直接推动了针对高空视角语义理解与长时程安全规划的新模型架构与训练策略的研究。

数据集最近研究