HUGE_Dataset_v0

github2026-04-10 更新2026-03-27 收录

下载链接：

https://github.com/jingyu198/HUGE-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

HUGE-Bench针对高级无人机视觉-语言-动作任务，其中代理必须将简短、可能模糊的命令转化为安全的多阶段行为。HUGE-Bench包含4个真实世界的数字孪生场景、8个高级任务和2.56百万米的轨迹。它建立在对齐的3DGS-Mesh表示上，结合了照片级真实感渲染和具有碰撞能力的几何，支持可扩展的数据生成和碰撞感知评估。

HUGE-Bench targets high-level drone vision-language-action tasks, requiring agents to convert brief, potentially ambiguous commands into safe multi-stage behaviors. HUGE-Bench includes 4 real-world digital twin scenarios, 8 high-level tasks, and 2.56 million meters of trajectories. Built upon aligned 3DGS-Mesh representations, it combines photorealistic rendering and collision-aware geometry, supporting scalable data generation and collision-aware evaluation.

创建时间：

2026-03-18

原始信息汇总

HUGE-Bench 数据集概述

数据集简介

HUGE-Bench 是一个面向高级无人机视觉-语言-动作任务的基准测试。它旨在让智能体将简短且可能模糊的指令，转化为安全的多阶段行为。该数据集基于对齐的 3DGS-Mesh 表示构建，结合了逼真的渲染能力和支持碰撞检测的几何结构，支持可扩展的数据生成和碰撞感知的评估。

数据集内容

场景：包含 4 个真实世界数字孪生场景。
任务：包含 8 个高级任务。
轨迹数据：包含 2.56 百万米的轨迹数据。

数据版本与获取

当前发布版本：HUGE_Dataset_v0
数据格式：以 LeRobot 格式发布，可直接用于 pi0 训练流程。
下载地址：
- 完整数据集（轨迹 + 3DGS 推理环境）：https://huggingface.co/datasets/yu781986168/HUGE_Dataset_v0
- 单任务示例数据（task_0）：https://huggingface.co/datasets/yu781986168/HUGE_Dataset_task0

任务列表

任务 ID	任务名称
`0`	Landing
`hl`	Orbit-H
`orbit`	Orbit-R
`building`	Inspection-B
`road`	Inspection-R
`farm`	Mapping
`obstacle`	Traversal
`orbit_multi`	Spiral Down

未来计划

发布 HUGE_Dataset_v1（将包含深度信息、子任务标签和 3DGS-Mesh 数字孪生环境）。
发布轨迹收集脚本。

搜集汇总

数据集介绍

构建方式

在无人机视觉-语言-行动任务领域，HUGE_Dench数据集通过构建四个真实世界数字孪生场景，实现了对高级别任务的系统性覆盖。该数据集基于对齐的3D高斯溅射与网格表示技术，融合了逼真渲染与碰撞感知几何，从而支持大规模轨迹数据的生成。数据采集过程模拟了无人机在复杂环境中的多阶段行为，涵盖着陆、盘旋、巡检等八类核心任务，累计轨迹长度达256万米，为高保真仿真提供了坚实基础。

特点

该数据集的核心特征在于其高度对齐的视觉-语言-行动三元表征，能够将模糊的自然语言指令映射为安全、可执行的无人机飞行轨迹。数据集包含多样化的任务场景与长达256万米的轨迹数据，支持碰撞感知评估，确保了仿真环境的实用性与安全性。其采用的3D高斯溅射技术实现了照片级真实感渲染，同时结合网格几何，为无人机行为规划提供了兼具视觉真实性与物理准确性的测试平台。

使用方法

用户可通过LeRobot格式直接加载数据集，并利用OpenPi训练框架进行模型微调。推理阶段需启动基于3D高斯溅射的渲染服务器，通过指定任务标识与配置文件，在数字孪生环境中执行轨迹推演。评估模块支持对预测轨迹与真实轨迹进行多维对比，输出包括三维可视化图像、轨迹数据文件及并排对比视频，便于研究者定量分析与定性验证模型性能。

背景与挑战

背景概述

在无人机自主导航与智能交互领域，高级视觉-语言-动作任务的研究正成为前沿热点。HUGE-Bench数据集由相关研究团队于2024年构建，旨在为无人机提供高层次的指令理解与行为生成基准。该数据集依托四个真实世界数字孪生场景，涵盖着陆、巡检、穿越等八项核心任务，轨迹总长达256万米。其创新性地采用对齐的3D高斯溅射-网格表示，融合了逼真渲染与碰撞感知几何，为无人机在复杂环境中的可扩展数据生成与安全评估奠定了坚实基础，显著推动了具身智能与自主系统领域的发展。

当前挑战

该数据集致力于解决无人机高级视觉-语言-动作任务中的核心挑战，即将简短且可能模糊的自然语言指令安全、精确地转化为多阶段、可执行的飞行动作序列。这一过程需克服语义歧义消除、长时程动作规划以及动态环境适应性等难题。在构建过程中，研究团队面临了大规模高质量轨迹数据采集的复杂性，以及如何将逼真视觉渲染与精确碰撞几何进行有效对齐的技术瓶颈，这些挑战对数据集的真实性、可扩展性与评估可靠性提出了严格要求。

常用场景

经典使用场景

在无人机视觉-语言-动作一体化研究领域，HUGE_Dench数据集为高级别任务提供了标准化的评估基准。其经典使用场景集中于训练和验证无人机智能体如何将简洁且可能模糊的自然语言指令，转化为安全、多阶段的空间行为序列。研究者借助该数据集内嵌的四个真实世界数字孪生场景与八项高阶任务，系统性地探索无人机在复杂环境中的自主决策与轨迹规划能力，为视觉语言模型与具身智能的融合研究奠定了实验基础。

衍生相关工作

围绕HUGE_Dench数据集，学术界已衍生出一系列经典研究工作。其中，基于OpenPi框架的PI0训练流程被广泛采纳，用于微调视觉语言动作模型以适应无人机控制任务。同时，结合3D高斯溅射的实时渲染与推理环境，催生了新型的仿真-现实迁移学习方法。这些工作不仅深化了对无人机多模态指令跟随机制的理解，也促进了具身人工智能在动态三维空间中的泛化能力研究，为后续更复杂的端到端自主系统开发提供了重要参考。

数据集最近研究