RoboSense Track 4 Cross-Modal Drone Navigation Dataset

github2025-06-23 更新2025-06-25 收录

下载链接：

https://github.com/robosense2025/track4

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于GeoText-1652基准，提供多平台图像（无人机、卫星和地面摄像机）、丰富的注释（全局描述、边界框和空间关系）、大规模（72所大学的100K+图像）以及训练和测试集完全分离。

This dataset is based on the GeoText-1652 benchmark. It provides multi-platform imagery captured by drones, satellites and ground cameras, alongside rich annotations including global descriptions, bounding boxes and spatial relationships. Boasting a large-scale collection of over 100,000 images from 72 universities, this dataset features completely separated training and test sets.

创建时间：

2025-06-09

原始信息汇总

RoboSense Track 4: Cross-Modal Drone Navigation 数据集概述

数据集简介

名称：RoboSense Track 4 Cross-Modal Drone Navigation Dataset
基础：基于GeoText-1652基准
目标：开发自然语言引导的跨视角图像检索模型

数据集特点

多平台图像：无人机、卫星和地面摄像机图像
丰富标注：
- 全局描述
- 边界框
- 空间关系
大规模：100K+图像，覆盖72所大学
无重叠：训练集（33所大学）和测试集（39所大学）完全分离

数据集统计

平台	分割	图像数量	描述数量	边界框-文本数量	类别数	大学数量
无人机	训练集	37,854	113,562	113,367	701	33
无人机	测试集	51,355	154,065	140,179	951	39
卫星	训练集	701	2,103	1,709	701	33
卫星	测试集	951	2,853	2,006	951	39
地面	训练集	11,663	34,989	14,761	701	33
地面	测试集	2,921	8,763	4,023	793	39

基线性能（Phase 1 - 24GB GPU版本）

文本查询	图像查询
R@1: 29.9	R@1: 50.1
R@5: 46.3	R@5: 81.2
R@10: 54.1	R@10: 90.3

数据格式

JSON标注示例

json { "image_id": "0839/image-43.jpeg", "image": "train/0839/image-43.jpeg", "caption": "In the center of the image is a large, modern office building...", "sentences": [ "The object in the center of the image is a large office building...", "On the upper middle side of the building, there is a street...", "On the middle right side of the building, there is a parking lot..." ], "bboxes": [ [0.408688, 0.688366, 0.388595, 0.623482], [0.242049, 0.385560, 0.304881, 0.289198], [0.738844, 0.832005, 0.521311, 0.334470] ] }

目录结构

datasets/track4-cross-modal-drone-navigation/ ├── train/ │ ├── 0001/ │ │ ├── drone_view.jpg │ │ ├── street_view.jpg │ │ └── satellite_view.jpg │ └── .../ ├── test/ │ ├── gallery_no_train(250)/ │ └── query(701)/ ├── train.json └── test_951_version.json

评估指标

Recall@K：R@1、R@5、R@10（文本到图像和图像到文本检索）
鲁棒性：在各种损坏和噪声条件下的性能
Phase 1：基于24GB测试集的公共排行榜
Phase 2：基于私有测试集的最终排名

引用

bibtex @inproceedings{chu2024towards, title = {Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching}, author = {Chu, Meng and Zheng, Zhedong and Ji, Wei and Wang, Tingyu and Chua, Tat-Seng}, booktitle = {European Conference on Computer Vision}, year = {2024}, organization = {Springer} }

搜集汇总

数据集介绍

构建方式

RoboSense Track 4 Cross-Modal Drone Navigation Dataset的构建基于GeoText-1652基准，涵盖了无人机、卫星和地面摄像头采集的多平台图像数据。数据集包含超过10万张图像，覆盖72所大学的不同场景，训练集和测试集在空间上完全分离，确保了评估的独立性。每张图像均配有丰富的标注信息，包括全局描述、边界框和空间关系，为跨模态导航研究提供了全面的数据支持。

特点

该数据集以其大规模和多平台特性著称，包含无人机、卫星和地面视角的多样化图像，每张图像均配有详细的自然语言描述和空间关系标注。数据集的独特之处在于其严格的训练集和测试集划分，确保了模型评估的公正性。此外，数据集还模拟了真实世界中的模糊、遮挡和噪声等干扰因素，为研究跨模态导航的鲁棒性提供了理想平台。

使用方法

使用该数据集时，研究人员需通过Git LFS下载完整数据包，并按照提供的目录结构进行组织。数据集支持多种任务配置，包括跨视角检索和自然语言引导的图像匹配。用户可通过修改配置文件指定数据路径，并利用官方提供的基线模型进行快速验证。数据集还提供了不同规模的测试版本，以适应不同硬件条件下的开发需求，确保研究过程的高效性。

背景与挑战

背景概述

RoboSense Track 4 Cross-Modal Drone Navigation Dataset是由RoboSense 2025挑战赛组织者基于GeoText-1652基准数据集构建的跨模态无人机导航数据集，旨在推动自然语言引导的跨视角图像检索研究。该数据集由多平台图像（无人机、卫星和地面摄像头）组成，包含超过10万张图像和丰富的标注信息（全局描述、边界框和空间关系），覆盖72所大学的场景。数据集的核心研究问题在于解决不同视角（空中与地面）图像间的语义匹配难题，为无人机自主导航、地理空间信息检索等领域提供了重要的基准测试平台。

当前挑战

该数据集面临的挑战主要体现在两个方面：领域问题方面，跨视角图像检索需要克服视角差异带来的语义鸿沟，同时在存在模糊、遮挡或传感器噪声等现实干扰下保持鲁棒性；构建过程方面，数据集需确保多平台图像间的时空对齐，处理大规模标注的复杂性，并维持训练集与测试集的地理分布独立性以避免数据泄漏。此外，自然语言描述与视觉内容的细粒度对齐也构成了显著的建模挑战。

常用场景

经典使用场景

RoboSense Track 4 Cross-Modal Drone Navigation Dataset在无人机导航领域具有广泛的应用价值，特别是在跨模态图像检索任务中表现出色。该数据集通过整合无人机、卫星和地面摄像头采集的多视角图像，结合丰富的自然语言描述和空间关系标注，为研究人员提供了一个全面的实验平台。其经典使用场景包括自然语言引导下的跨视角图像匹配，即根据文本描述从不同视角的图像库中检索出最相关的图像。这一场景不仅考验模型对多模态数据的理解能力，还要求系统在模糊、遮挡或噪声等现实干扰下保持稳健性能。

解决学术问题

该数据集有效解决了跨模态无人机导航中的若干关键学术问题。首先，它突破了传统单视角检索的局限，通过建立无人机、卫星和地面图像之间的关联，推动了跨视角图像理解的研究。其次，数据集提供的自然语言标注和空间关系信息，为研究语言引导的视觉定位提供了宝贵资源。更重要的是，数据集刻意引入的各类图像干扰因素，为开发具有鲁棒性的跨模态检索算法创造了条件。这些特性使得该数据集成为评估模型在复杂现实场景中表现的重要基准。

衍生相关工作

基于该数据集已经衍生出多项重要研究工作。原始论文提出的GeoText-1652基准框架为后续研究奠定了基础，其创新的空间关系匹配机制被广泛引用。在IROS 2025挑战赛中，参赛团队提出了多种改进方案，包括跨模态注意力机制、多尺度特征融合等创新方法。这些工作不仅推动了跨模态检索技术的发展，也为无人机自主导航系统提供了新的技术路线。数据集的影响力还延伸至计算机视觉与自然语言处理的交叉领域，促进了多模态学习算法的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集