AerialVLN-Fine

Hugging Face2026-04-05 更新2026-04-06 收录

下载链接：

https://huggingface.co/datasets/Lozumi/AerialVLN-Fine

下载链接

链接失效反馈

官方服务：

资源简介：

AerialVLN-Fine 是一个基于 AerialVLN 构建的精选基准数据集，旨在为零样本无人机视觉语言导航（UAV VLN）评估提供更可靠的基准。该数据集通过句子级别的指令段与轨迹段对齐，以及通过明确的视觉端点和地标参考来优化模糊表达，从而支持细粒度的能力诊断和句子级别的评估。数据集包含 300 个高质量的指令-轨迹对，平均每条轨迹包含 189 米和 76 个动作，以及 4.6 个对齐的指令句子。总规模为 56,050 米和 22,835 个动作。数据集结构包括场景文件夹和测试文件，每个场景文件夹包含句子级别的注释 JSON 文件，而测试文件则采用 AerialVLN 格式的 JSON 文件。数据集采用 Creative Commons Attribution 4.0 International (CC BY 4.0) 许可。

创建时间：

2026-04-04

原始信息汇总

AerialVLN-Fine 数据集概述

数据集简介

AerialVLN-Fine 是一个基于 AerialVLN 构建的精选基准数据集，旨在提供更可靠的零样本无人机视觉语言导航评估。该数据集提供了指令片段与轨迹片段之间的句子级对齐，并通过明确的视觉终点和地标参考来优化模糊表达。数据集设计用于支持细粒度能力诊断和句子级评估，同时通过重复人工验证保持高标注质量。

关键统计信息

总轨迹数：300 条高质量指令-轨迹对
数据来源：AerialVLN 的 Val-Seen 和 Val-Unseen 场景
平均每条轨迹：189 米和 76 个动作
细粒度语义：每条轨迹平均有 4.6 个对齐的指令句子
总体规模：56,050 米和 22,835 个动作
指令优化：总词数从 17,572 增加到 30,762；平均长度从 59 词增加到 103 词
句子级总计：1,383 个对齐句子（平均 41 米，17 个动作）

数据集结构

主数据集目录结构如下：

AerialVLN-Fine/
- scene_2/, scene_3/, scene_5/, ..., scene_24/
  - 句子级标注 JSON 文件（每个文件对应一条轨迹）
- TEST_FILE/
  - 用于测试/评估的 AerialVLN 格式场景 JSON 文件

数据格式说明

JSON 格式 1：场景标注文件

这些文件位于 scene_xx 文件夹下，例如： AerialVLN-Fine-V3-20251110/scene_11/3180JW2OTDAQVE67WQ0FUSZAWP85JT.json 每个文件包含一条具有句子级对齐片段的轨迹。

顶层字段：

字段名	类型	描述
episode_id	string	唯一情节标识符
trajectory_id	string	唯一轨迹标识符
scene_id	int	场景索引
instruction	string	完整的优化后指令文本
sentence_instructions	list	句子级对齐标注列表
statistics	dict	片段级动作统计信息

statistics 字段：

字段名	类型	描述
complete_actions	int	该轨迹的总动作数
sentence_actions	list[int]	句子片段的动作计数列表
sentence_actions_average	float	每个句子片段的平均动作数

sentence_instructions 条目字段：

字段名	类型	描述
id	int	句子片段索引
instruction	string	原始片段指令文本
completed_instruction	string	优化/完善后的片段指令文本
start_frame	int	在全轨迹中的起始索引（动作/帧索引）
end_frame	int	在全轨迹中的结束索引（动作/帧索引）
start_position	list[float]	片段起始位置 [x, y, z]
start_rotation	list[float]	片段起始四元数 [w, x, y, z]
end_position	list[float]	片段结束位置 [x, y, z]
end_rotation	list[float]	片段结束四元数 [w, x, y, z]
actions	list[int]	该句子片段的动作序列
reference_path	list[list[float]]	片段轨迹点，每个点为 [x, y, z, roll, pitch, yaw]

JSON 格式 2：AerialVLN 风格测试 JSON (TEST_FILE)

这些文件位于 TEST_FILE 文件夹下，例如： AerialVLN-Fine/TEST_FILE/AerialVLN-Fine-V3-Scene-11.json 每个文件包含一个 AerialVLN 格式的 episodes 数组。

顶层字段：

字段名	类型	描述
episodes	list	AerialVLN 情节列表

episodes 条目字段：

字段名	类型	描述
episode_id	string	唯一情节标识符
trajectory_id	string	唯一轨迹标识符
scene_id	int	场景索引
start_position	list[float]	起始位置 [x, y, z]
start_rotation	list[float]	起始四元数 [w, x, y, z]
instruction	dict	指令容器
goals	list[dict]	目标点列表
reference_path	list[list[float]]	完整轨迹路径点
actions	list[int]	完整动作序列

episodes 中的嵌套字段：

instruction:
- instruction_text: string
goals 条目:
- position: list[float] （目标位置 [x, y, z]）
reference_path 点:
- [x, y, z, roll, pitch, yaw]

许可信息

本数据集采用知识共享署名 4.0 国际许可协议（CC BY 4.0）进行许可。

致谢

本数据集基于 AerialVLN 构建，专注于提高无人机视觉语言导航评估的指令清晰度和句子级对齐质量。

搜集汇总

数据集介绍

构建方式

在无人机视觉语言导航领域，AerialVLN-Fine数据集作为一项精细化基准，其构建过程体现了对数据质量的严格把控。该数据集从AerialVLN的Val-Seen和Val-Unseen场景中精选了300条高质量的指令-轨迹对，每条轨迹平均包含189米路径和76个动作。核心构建策略在于实现了句子级别的语义对齐，通过人工反复校验，将每条完整指令细分为平均4.6个句子片段，并为每个片段精确标注起始帧、结束帧、空间坐标及动作序列。同时，对原有模糊表达进行了显式修正，明确视觉终点和地标参照，使得指令文本的平均长度从59词扩展至103词，显著提升了语义清晰度与评估可靠性。

使用方法

使用AerialVLN-Fine数据集时，研究者可根据评估目标灵活选择数据格式。对于细粒度能力分析，可加载scene_xx文件夹下的句子级标注JSON文件，利用其中的sentence_instructions字段进行分段指令与轨迹的匹配验证，并通过statistics字段获取动作统计信息。若需进行整体轨迹的零样本评估，则可调用TEST_FILE目录下的AerialVLN格式JSON文件，其中的episodes数组提供了完整的起点、指令、目标点及参考路径，便于集成至标准导航流程。数据集支持对指令清晰度、轨迹对齐精度及模型跨场景泛化能力的多维测评，为无人机视觉语言导航研究提供了结构化、可复现的实验基础。

背景与挑战

背景概述

无人机视觉语言导航（UAV VLN）作为新兴交叉领域，旨在通过自然语言指令引导无人机在复杂三维环境中自主执行导航任务。AerialVLN-Fine数据集由智能实验室团队于近期构建，作为论文《FineCog-Nav: Integrating Fine-grained Cognitive Modules for Zero-shot Multimodal UAV Navigation》的核心组成部分。该数据集基于AerialVLN基准进行精细化重构，专注于提升零样本评估的可靠性，通过句子级指令-轨迹对齐与语义明确化标注，为无人机导航系统的细粒度认知能力诊断提供高质量数据支撑。其构建体现了对跨模态对齐精度与指令歧义消除的前沿探索，显著推动了具身智能在动态空域场景中的理论发展与应用验证。

当前挑战

在无人机视觉语言导航领域，核心挑战在于解决跨模态语义对齐的模糊性与环境动态感知的复杂性。具体而言，自然语言指令常包含隐含空间关系与动态地标参照，要求模型在未见场景中实现零样本泛化，同时克服视觉视角变化、运动自由度高等特有难题。数据集构建过程中，团队面临双重挑战：一是原始指令存在大量歧义表达，需通过人工反复校验将其转化为具有明确视觉端点与地标参照的精细化描述；二是实现句子级指令片段与轨迹段落的精准时空对齐，需设计复杂标注框架以协调语言语义离散性与运动轨迹连续性之间的映射关系，确保评估协议具备高粒度诊断能力。

常用场景

经典使用场景

在无人机视觉语言导航领域，AerialVLN-Fine数据集被广泛应用于零样本评估场景。该数据集通过提供句子级别的指令与轨迹段对齐，支持对导航模型进行细粒度能力诊断，例如分析模型在理解复杂空间指令或处理视觉端点模糊性方面的表现。研究者常利用其精细标注的轨迹段和动作序列，评估模型在未见场景中的泛化性能，从而推动无人机自主导航技术的进步。

解决学术问题

该数据集解决了无人机视觉语言导航中指令模糊性和评估可靠性不足的学术问题。通过引入显式视觉端点和地标参考，它减少了自然语言指令的多义性，同时句子级别的对齐机制使得研究人员能够精确分析导航错误来源，如动作规划或语义理解缺陷。这不仅提升了零样本评估的严谨性，还为构建更鲁棒的认知导航模型提供了关键数据支撑。

实际应用

在实际应用中，AerialVLN-Fine数据集可服务于无人机自主巡检、灾难救援和物流配送等场景。其精细的轨迹标注和动作序列能够训练无人机在复杂城市或自然环境中，依据人类指令执行精确导航任务。例如，在搜索救援行动中，无人机可基于数据集中类似“绕过建筑物并降落在红色屋顶左侧”的指令，快速定位目标位置，提升任务效率与安全性。

数据集最近研究