VLD

Name: VLD
Creator: 中国科学院自动化研究所
Published: 2025-05-06 20:00:49
License: 暂无描述

arXiv2025-05-06 更新2025-05-13 收录

下载链接：

http://arxiv.org/abs/2505.03460v1

下载链接

链接失效反馈

官方服务：

资源简介：

VLD数据集是由中国科学院自动化研究所的研究人员构建的，用于评估最后一公里无人机配送系统。该数据集基于CARLA模拟器，包含了300个配送任务，分布在22个不同的建筑物中。数据集涵盖了各种场景和任务，包括各种类型的建筑物和目标物体，如工具、容器、家居用品、食品、家具、海报、玩具和装饰品等。此外，数据集还考虑了任务的难度水平和目标楼层数，以确保其多样性。VLD数据集的构建旨在填补现有视觉-语言导航基准的空白，为研究者在最后一公里无人机配送系统领域的研究和评估提供支持。

The VLD dataset was constructed by researchers from the Institute of Automation, Chinese Academy of Sciences, for evaluating last-mile UAV delivery systems. Based on the CARLA simulator, this dataset contains 300 delivery tasks distributed across 22 distinct buildings. It covers a wide range of scenarios and tasks, including various types of buildings and target objects such as tools, containers, household items, food, furniture, posters, toys, decorations and more. In addition, the dataset takes into account task difficulty levels and the number of target floors to ensure its diversity. The construction of the VLD dataset aims to fill the gap in existing visual-language navigation benchmarks, providing support for researchers to carry out research and evaluation in the field of last-mile UAV delivery systems.

提供机构：

中国科学院自动化研究所

创建时间：

2025-05-06

搜集汇总

数据集介绍

构建方式

VLD数据集基于CARLA 0.9.12仿真平台构建，该平台依托Unreal Engine 4引擎提供高保真度的三维环境模拟。研究团队在22类建筑场景中精心设计了300项视觉语言配送任务，涵盖低层住宅、高层建筑、别墅及文化主题建筑等多种建筑类型。通过整合CARLA内置模型与人工添加的高精度模型，数据集实现了目标物体类别的多元化覆盖，包括工具、容器、家居用品等八大类别。任务难度根据无人机最小转向次数划分为三个层级，并采用GPT-4o生成具有语言多样性的用户请求，最终经由专家审核确保数据质量。

特点

该数据集创新性地聚焦无人机末端配送场景，填补了现有视觉语言导航基准在精细化窗口级任务上的空白。其显著特征体现在三维空间的连续性建模，通过五组RGB-Depth相机实现半全景环境感知。数据分布具有鲜明的层次性，不仅包含不同建筑高度（1-12层）的任务配置，还构建了基于转向次数的难度梯度。独特的语言-空间对齐机制将自然语言请求与建筑空间特征相结合，支持从客户描述到目标窗口的端到端推理。多模态标注体系涵盖楼层定位、目标识别和动作决策等关键环节，为轻量化大模型的研究提供了多维度的评估基准。

使用方法

使用该数据集时，建议采用模块化评估框架以匹配其多阶段任务特性。基准测试应包含成功率(SR)和路径加权成功率(SPL)等核心指标，同时关注平均决策步数所反映的计算效率。对于楼层定位模块，建议设置7米高度容差阈值来判定定位失败；目标识别模块需重点评估误检率，特别是颜色等显性特征导致的误匹配。实验设计可结合消融研究分析各组件贡献，例如对比直接楼层计数与渐进式定位策略的效能差异。数据集支持Qwen2-VL、LLaMA-3等主流视觉语言模型的性能比对，但需注意不同模型在数值输出稳定性方面的差异。

背景与挑战

背景概述

VLD（Vision-Language Delivery）数据集由中国科学院自动化研究所、澳门科技大学等机构的研究团队于2025年提出，旨在解决无人机在智能物流终端配送中的视觉-语言导航问题。该数据集基于CARLA仿真平台构建，包含22种建筑类型和300个配送任务，覆盖了从低层住宅到高层建筑的多样化场景。研究团队通过集成轻量化多模态大语言模型（MLLMs），首次实现了无人机在无先验地图条件下的窗口级精准配送，填补了传统VLN任务在短距离精细目标导航领域的空白。该数据集的建立为基于基础模型的自主配送系统提供了标准化评估基准，推动了智能物流与具身智能的交叉研究。

当前挑战

VLD数据集面临的核心挑战体现在两个维度：在领域问题层面，无人机终端配送需克服短距离导航中目标尺度小、建筑结构复杂、语义干扰多等难题，传统VLN方法因依赖粗粒度长程导航而难以适用；在构建过程中，研究团队需解决多模态数据同步采集、轻量化模型部署、安全轨迹生成等技术瓶颈，尤其在楼层定位模块需设计抗干扰的视觉-语言协同算法以应对建筑立面多样性带来的识别误差。此外，仿真环境与现实场景的域差异也对数据集的实用价值提出了持续优化的要求。

常用场景

经典使用场景

VLD数据集专为无人机终端配送场景设计，特别适用于窗口级别的精确投递任务。在智能物流领域，该数据集通过模拟真实住宅环境中的视觉-语言导航任务，为研究者提供了一个标准化的测试平台。无人机需要根据自然语言指令，在无预先构建地图的情况下，精准定位并飞抵用户指定的窗口位置。这一场景高度还原了现实世界中无人机末端配送的复杂挑战，包括楼层定位、目标识别和安全避障等关键环节。

解决学术问题

VLD数据集有效解决了无人机视觉-语言导航领域的两大核心问题：一是填补了现有VLN基准在短距离精细目标导航方面的空白，二是突破了传统地面机器人配送的空间局限性。通过构建包含300个多样化任务的仿真环境，该数据集支持对多模态大语言模型在理解用户请求、楼层定位和目标识别等子任务中的性能评估，为提升无人机自主决策的准确性和鲁棒性提供了量化依据。

衍生相关工作

围绕VLD数据集已衍生出多项创新性研究，包括基于Qwen2-VL的轻量化视觉语言模型优化方案，以及结合深度辅助的视角选择算法。这些工作显著提升了无人机在复杂建筑结构中的导航精度。数据集还启发了LogisticsVISTA等跨平台配送系统的开发，为无人机、无人车和无人船的协同配送提供了关键技术支撑。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集