RoboSense Track 4 Cross-Modal Drone Navigation Dataset
收藏RoboSense Track 4: Cross-Modal Drone Navigation 数据集概述
数据集简介
- 名称:RoboSense Track 4 Cross-Modal Drone Navigation Dataset
- 基础:基于GeoText-1652基准
- 目标:开发自然语言引导的跨视角图像检索模型
数据集特点
- 多平台图像:无人机、卫星和地面摄像机图像
- 丰富标注:
- 全局描述
- 边界框
- 空间关系
- 大规模:100K+图像,覆盖72所大学
- 无重叠:训练集(33所大学)和测试集(39所大学)完全分离
数据集统计
| 平台 | 分割 | 图像数量 | 描述数量 | 边界框-文本数量 | 类别数 | 大学数量 |
|---|---|---|---|---|---|---|
| 无人机 | 训练集 | 37,854 | 113,562 | 113,367 | 701 | 33 |
| 无人机 | 测试集 | 51,355 | 154,065 | 140,179 | 951 | 39 |
| 卫星 | 训练集 | 701 | 2,103 | 1,709 | 701 | 33 |
| 卫星 | 测试集 | 951 | 2,853 | 2,006 | 951 | 39 |
| 地面 | 训练集 | 11,663 | 34,989 | 14,761 | 701 | 33 |
| 地面 | 测试集 | 2,921 | 8,763 | 4,023 | 793 | 39 |
基线性能(Phase 1 - 24GB GPU版本)
| 文本查询 | 图像查询 |
|---|---|
| R@1: 29.9 | R@1: 50.1 |
| R@5: 46.3 | R@5: 81.2 |
| R@10: 54.1 | R@10: 90.3 |
数据格式
JSON标注示例
json { "image_id": "0839/image-43.jpeg", "image": "train/0839/image-43.jpeg", "caption": "In the center of the image is a large, modern office building...", "sentences": [ "The object in the center of the image is a large office building...", "On the upper middle side of the building, there is a street...", "On the middle right side of the building, there is a parking lot..." ], "bboxes": [ [0.408688, 0.688366, 0.388595, 0.623482], [0.242049, 0.385560, 0.304881, 0.289198], [0.738844, 0.832005, 0.521311, 0.334470] ] }
目录结构
datasets/track4-cross-modal-drone-navigation/ ├── train/ │ ├── 0001/ │ │ ├── drone_view.jpg │ │ ├── street_view.jpg │ │ └── satellite_view.jpg │ └── .../ ├── test/ │ ├── gallery_no_train(250)/ │ └── query(701)/ ├── train.json └── test_951_version.json
评估指标
- Recall@K:R@1、R@5、R@10(文本到图像和图像到文本检索)
- 鲁棒性:在各种损坏和噪声条件下的性能
- Phase 1:基于24GB测试集的公共排行榜
- Phase 2:基于私有测试集的最终排名
引用
bibtex @inproceedings{chu2024towards, title = {Towards Natural Language-Guided Drones: GeoText-1652 Benchmark with Spatial Relation Matching}, author = {Chu, Meng and Zheng, Zhedong and Ji, Wei and Wang, Tingyu and Chua, Tat-Seng}, booktitle = {European Conference on Computer Vision}, year = {2024}, organization = {Springer} }




