five

OpenFly

收藏
arXiv2025-02-25 更新2025-02-27 收录
下载链接:
https://shailab-ipec.github.io/openfly/
下载链接
链接失效反馈
官方服务:
资源简介:
OpenFly数据集是由上海人工智能实验室创建的一个大型空中视觉语言导航数据集,包含18个场景的10万条轨迹和指令。数据集利用多种渲染引擎和技术生成,包括虚幻引擎、GTA 5、Google Earth和3D高斯散点渲染等,以支持真实到模拟的渲染,增强数据的真实感。该数据集通过自动化工具链进行数据生成,旨在推进空中视觉语言导航任务的研究。

The OpenFly Dataset is a large-scale aerial vision-language navigation dataset created by the Shanghai AI Laboratory, which contains 100,000 trajectories and instructions across 18 scenarios. The dataset is generated using multiple rendering engines and technologies, including Unreal Engine, GTA 5, Google Earth, and 3D Gaussian Splatting, to support real-to-sim rendering and enhance the realism of the data. It is generated via an automated toolchain, aiming to advance research in aerial vision-language navigation tasks.
提供机构:
上海人工智能实验室
创建时间:
2025-02-25
搜集汇总
数据集介绍
main_image_url
构建方式
OpenFly数据集的构建方式结合了多种渲染引擎和高级技术,如Unreal Engine、GTA V、Google Earth和3D Gaussian Splatting (3D GS)。首先,通过无人机自动巡逻捕获大量真实世界图像,并使用3D GS技术重建逼真的3D场景。其次,开发了一个通用的工具链,包括3D点云采集、场景语义分割、自动轨迹生成和指令生成。点云采集用于捕捉场景的3D占用情况,场景语义分割用于识别和选择轨迹中的地标作为航点。基于这些工具,使用预定义的飞行动作作为基本单元,自动搜索无碰撞轨迹。最后,将轨迹和相应的无人机中心图像输入到视觉语言模型(VLM)中,例如GPT-4o,以生成语言指令。
特点
OpenFly数据集具有以下特点:包含10万个轨迹,覆盖18个场景,使用多种渲染引擎和高级技术生成视觉数据,所有数据都具有高质量的视觉效果。数据集的轨迹长度和高度多样,难度级别涵盖从简单到复杂。此外,数据集还使用了真实到模拟的渲染方法,进一步增强了数据的真实性。
使用方法
OpenFly数据集可用于训练和评估视觉语言导航(VLN)模型。数据集分为训练集、测试集(已见过场景)和测试集(未见过场景)。使用数据集进行训练时,可以将轨迹和指令作为输入,训练模型预测无人机下一步的行动。评估模型时,可以使用导航误差(NE)、成功率(SR)、最佳成功率(OSR)和路径长度加权成功率(SPL)等指标。此外,OpenFly-Agent模型可用于直接根据观察和语言指令预测飞行行动,并已在数据集上进行了广泛实验和评估。
背景与挑战
背景概述
在计算机视觉和自然语言处理领域,视觉-语言导航(VLN)是一个关键任务,旨在利用语言指令和视觉线索引导智能体在环境中导航。尽管室内VLN已经得到了广泛的研究,但室外空中VLN仍然是一个未被充分探索的领域。室外空中视角涵盖了广阔的区域,使得数据收集更具挑战性,从而导致缺乏基准数据集。为了解决这一问题,OpenFly平台应运而生,它是一个包含通用工具链和大规模基准的空中VLN平台。OpenFly由上海人工智能实验室和多家学术机构的研究人员共同创建,于2025年首次提出。该平台旨在通过自动化的数据收集工具链,生成包含10万条轨迹和指令的大型空中VLN数据集,为研究空中VLN任务提供丰富的数据资源。
当前挑战
OpenFly数据集面临的挑战主要包括:1)数据多样性不足。现有方法依赖于AirSim和Unreal Engine(UE)来控制无人机,这限制了它们使用这些平台兼容的数字资产,减少了可用数据的多样性,并限制了使用更多逼真来源的潜力。2)数据收集效率低下。生成轨迹的过程依赖于在模拟器中操作无人机的飞行员,随后进行手动注释以创建语言指令。整个过程劳动密集、耗时且难以扩展。3)数据规模不足。现有的空中VLN数据集相对较小,只有大约1万条轨迹,这远远落后于体态操控数据集。为了解决这些问题,OpenFly平台建立在各种广泛使用的渲染引擎和先进技术的基础上,即UE、GTA V、Google Earth和3D Gaussian Splatting(3D GS)。这使我们能够利用广泛的资产。此外,我们还开发了通用工具链,用于自动生成空中VLN数据,从而提高数据收集的效率和多样性。
常用场景
经典使用场景
OpenFly数据集作为一项创新性的空中视觉语言导航(VLN)工具链和大规模基准,其经典使用场景主要集中于无人机(UAV)的导航任务。例如,在搜索和救援任务中,UAV可以根据OpenFly数据集提供的语言指令和视觉线索,自动规划飞行轨迹,识别和追踪特定目标。在建筑物的安全检查中,UAV可以通过OpenFly数据集进行训练,实现对建筑物的自动巡检,并通过语言指令报告其发现的问题。
解决学术问题
OpenFly数据集解决了目前空中VLN领域存在的几个关键问题。首先,OpenFly数据集通过使用多种渲染引擎和高级技术,如Unreal Engine、GTA V、Google Earth和3D Gaussian Splatting (3D GS),极大地提升了数据多样性,从而提高了模型的泛化能力。其次,OpenFly数据集通过高度自动化的数据生成工具链,实现了高效的数据收集,解决了传统数据收集方法中人工标注成本高、耗时长的问题。最后,OpenFly数据集的规模远超现有数据集,为空中VLN研究提供了更丰富的数据资源,有助于推动该领域的发展。
衍生相关工作
OpenFly数据集的推出,衍生了一系列相关的研究工作。例如,基于OpenFly数据集,研究人员提出了OpenFly-Agent,这是一种基于关键帧的VLN模型,能够直接根据观察和语言指令预测飞行动作。此外,OpenFly数据集还被用于评估和比较不同的VLN模型,为VLN研究提供了重要的基准。未来,OpenFly数据集有望在更多的空中VLN任务中得到应用,推动该领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作