five

VLD|无人机配送数据集|视觉-语言导航数据集

收藏
arXiv2025-05-06 更新2025-05-13 收录
无人机配送
视觉-语言导航
下载链接:
http://arxiv.org/abs/2505.03460v1
下载链接
链接失效反馈
资源简介:
VLD数据集是由中国科学院自动化研究所的研究人员构建的,用于评估最后一公里无人机配送系统。该数据集基于CARLA模拟器,包含了300个配送任务,分布在22个不同的建筑物中。数据集涵盖了各种场景和任务,包括各种类型的建筑物和目标物体,如工具、容器、家居用品、食品、家具、海报、玩具和装饰品等。此外,数据集还考虑了任务的难度水平和目标楼层数,以确保其多样性。VLD数据集的构建旨在填补现有视觉-语言导航基准的空白,为研究者在最后一公里无人机配送系统领域的研究和评估提供支持。
提供机构:
中国科学院自动化研究所
创建时间:
2025-05-06
AI搜集汇总
数据集介绍
main_image_url
构建方式
VLD数据集基于CARLA 0.9.12仿真平台构建,该平台依托Unreal Engine 4引擎提供高保真度的三维环境模拟。研究团队在22类建筑场景中精心设计了300项视觉语言配送任务,涵盖低层住宅、高层建筑、别墅及文化主题建筑等多种建筑类型。通过整合CARLA内置模型与人工添加的高精度模型,数据集实现了目标物体类别的多元化覆盖,包括工具、容器、家居用品等八大类别。任务难度根据无人机最小转向次数划分为三个层级,并采用GPT-4o生成具有语言多样性的用户请求,最终经由专家审核确保数据质量。
特点
该数据集创新性地聚焦无人机末端配送场景,填补了现有视觉语言导航基准在精细化窗口级任务上的空白。其显著特征体现在三维空间的连续性建模,通过五组RGB-Depth相机实现半全景环境感知。数据分布具有鲜明的层次性,不仅包含不同建筑高度(1-12层)的任务配置,还构建了基于转向次数的难度梯度。独特的语言-空间对齐机制将自然语言请求与建筑空间特征相结合,支持从客户描述到目标窗口的端到端推理。多模态标注体系涵盖楼层定位、目标识别和动作决策等关键环节,为轻量化大模型的研究提供了多维度的评估基准。
使用方法
使用该数据集时,建议采用模块化评估框架以匹配其多阶段任务特性。基准测试应包含成功率(SR)和路径加权成功率(SPL)等核心指标,同时关注平均决策步数所反映的计算效率。对于楼层定位模块,建议设置7米高度容差阈值来判定定位失败;目标识别模块需重点评估误检率,特别是颜色等显性特征导致的误匹配。实验设计可结合消融研究分析各组件贡献,例如对比直接楼层计数与渐进式定位策略的效能差异。数据集支持Qwen2-VL、LLaMA-3等主流视觉语言模型的性能比对,但需注意不同模型在数值输出稳定性方面的差异。
背景与挑战
背景概述
VLD(Vision-Language Delivery)数据集由中国科学院自动化研究所、澳门科技大学等机构的研究团队于2025年提出,旨在解决无人机在智能物流终端配送中的视觉-语言导航问题。该数据集基于CARLA仿真平台构建,包含22种建筑类型和300个配送任务,覆盖了从低层住宅到高层建筑的多样化场景。研究团队通过集成轻量化多模态大语言模型(MLLMs),首次实现了无人机在无先验地图条件下的窗口级精准配送,填补了传统VLN任务在短距离精细目标导航领域的空白。该数据集的建立为基于基础模型的自主配送系统提供了标准化评估基准,推动了智能物流与具身智能的交叉研究。
当前挑战
VLD数据集面临的核心挑战体现在两个维度:在领域问题层面,无人机终端配送需克服短距离导航中目标尺度小、建筑结构复杂、语义干扰多等难题,传统VLN方法因依赖粗粒度长程导航而难以适用;在构建过程中,研究团队需解决多模态数据同步采集、轻量化模型部署、安全轨迹生成等技术瓶颈,尤其在楼层定位模块需设计抗干扰的视觉-语言协同算法以应对建筑立面多样性带来的识别误差。此外,仿真环境与现实场景的域差异也对数据集的实用价值提出了持续优化的要求。
常用场景
经典使用场景
VLD数据集专为无人机终端配送场景设计,特别适用于窗口级别的精确投递任务。在智能物流领域,该数据集通过模拟真实住宅环境中的视觉-语言导航任务,为研究者提供了一个标准化的测试平台。无人机需要根据自然语言指令,在无预先构建地图的情况下,精准定位并飞抵用户指定的窗口位置。这一场景高度还原了现实世界中无人机末端配送的复杂挑战,包括楼层定位、目标识别和安全避障等关键环节。
解决学术问题
VLD数据集有效解决了无人机视觉-语言导航领域的两大核心问题:一是填补了现有VLN基准在短距离精细目标导航方面的空白,二是突破了传统地面机器人配送的空间局限性。通过构建包含300个多样化任务的仿真环境,该数据集支持对多模态大语言模型在理解用户请求、楼层定位和目标识别等子任务中的性能评估,为提升无人机自主决策的准确性和鲁棒性提供了量化依据。
衍生相关工作
围绕VLD数据集已衍生出多项创新性研究,包括基于Qwen2-VL的轻量化视觉语言模型优化方案,以及结合深度辅助的视角选择算法。这些工作显著提升了无人机在复杂建筑结构中的导航精度。数据集还启发了LogisticsVISTA等跨平台配送系统的开发,为无人机、无人车和无人船的协同配送提供了关键技术支撑。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Yahoo Finance Historical Data

该数据集包含来自Yahoo Finance的历史股票数据,涵盖了股票的开盘价、收盘价、最高价、最低价、成交量等信息。数据集的时间跨度从2000年1月至今,提供了全球多个市场的股票数据。

finance.yahoo.com 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录