MMLandmarks Dataset
收藏MMLandmarks 数据集概述
基本信息
MMLandmarks(多模态地标数据集)是一个用于地理空间理解的跨视图实例级基准数据集,相关论文发表于 CVPR 2026。该数据集首次将跨视图定位扩展到细粒度的洲际尺度。
- 数据来源:基于 Google Landmarks Dataset v2 (GLDv2) 的数据收集流程,结合 OpenStreetMaps (OSM) 和美国国家农业影像计划 (NAIP) 的信息构建。
- 覆盖范围:美国境内 18,557 个地标,每个地标关联了 Wikipedia 和 Wikimedia Commons 页面。
- 数据模态:包含地面图像、航空图像、GPS 坐标和文本描述四种模态。
数据集统计
| 划分 | 地标数 | 地面图像 | 卫星图像 | GPS 坐标 | 文本描述 |
|---|---|---|---|---|---|
| train | 17,557 | 310,661 | 186,574 | 17,557 | 17,557 |
| query | 1,000 | 18,688 | 10,631 | 1,000 | 1,000 |
| index (ground) | — | 714,554 | — | — | — |
| index (satellite) | — | — | 99,539 | 99,539 | — |
| 总计 | 18,557 | ~1,043,903 | ~296,744 | 118,096 | 18,557 |
数据集划分
训练集 (train)
- 地标数量:17,557 个
- 数据内容:310K 地面图像、186K 卫星图像、17,557 个 GPS 坐标、17,557 条文本描述
- 下载文件:地面图像分为 80 个 TAR 文件(各约 800MB),卫星图像分为 200 个 TAR 文件(各约 850MB),文本数据为 1 个 TAR 文件(约 106MB)
查询集 (query)
- 地标数量:1,000 个
- 数据内容:18,688 张地面图像、1,000 张卫星图像(提供完整卫星查询集 10,631 张)、1,000 个 GPS 坐标、1,000 条文本描述
- 下载文件:地面图像分为 4 个 TAR 文件(各约 900MB),卫星图像分为 10 个 TAR 文件(各约 950MB),文本数据为 1 个 TAR 文件(约 7MB)
索引集 (index)
- 数据内容:
- 地面索引:714,554 张来自 GLDv2 索引集的图像(已过滤掉 MMLandmarks 中的地标)
- 卫星索引:99,539 张从 NAIP 采样的图像
- GPS 索引:99,539 个卫星索引集图像的中心坐标
- 下载文件:地面图像分为 80 个 TAR 文件(各约 1GB),卫星图像分为 120 个 TAR 文件(各约 1GB)
文件结构
MMLandmarks/ ├── mmlandmarks.csv ├── train/ │ ├── mml_train.csv, mml_train_ground.csv, mml_train_satellite.csv, mml_train_text.csv, mml_train_licenses.csv │ ├── ground/{a}/{b}/{c}/{image_id}.jpg │ ├── satellite/{a}/{b}/{c}/{image_id}.png │ └── text/{a}/{b}/{c}/{text_id}.json ├── index/ │ ├── mml_index_ground.csv, mml_index_satellite.csv │ ├── ground/{a}/{b}/{c}/{image_id}.jpg │ └── satellite/{a}/{b}/{c}/{image_id}.png └── query/ ├── mml_query.csv, mml_query_ground.csv, mml_query_satellite.csv, mml_query_text.csv, mml_query_licenses.csv ├── mml_query_all_satellite.csv, mml_query_text_sentences.csv ├── ground/{a}/{b}/{c}/{image_id}.jpg ├── satellite/{a}/{b}/{c}/{image_id}.png └── text/{a}/{b}/{c}/{text_id}.json
文件名格式:{a}, {b}, {c} 为图像/JSON 文件 ID 的前三个字符,例如 ID 为 0123456789abcdef 的地面图像存储在 train/ground/0/1/2/0123456789abcdef.jpg。
元数据文件
- mmlandmarks.csv:包含所有 18,557 个地标的详细信息,字段包括:landmark_id、CommonsCategory、WikipediaPage、lat、lon、bounding box、QID、osm_type、osm_id、category、state、hierarchical_category。
- 训练集 CSV 文件:各模态的标签和元数据文件(mml_train.csv、mml_train_ground.csv、mml_train_satellite.csv、mml_train_text.csv、mml_train_licenses.csv)。
- 查询集 CSV 文件:各模态的标签和元数据文件(mml_query.csv、mml_query_ground.csv、mml_query_satellite.csv、mml_query_text.csv、mml_query_licenses.csv),以及额外查询文件(mml_query_all_satellite.csv、mml_query_text_sentences.csv)。
- 索引集 CSV 文件:mml_index_ground.csv、mml_index_satellite.csv。
许可证信息
- 地面图像:采用 Creative Commons 和 Public Domain 许可证,许可证信息可在
mml_train_licenses.csv和mml_query_licenses.csv中查询。 - 卫星图像:由美国农业部农场服务局通过国家农业影像计划 (NAIP) 提供,属于公共领域信息。使用时需注明 USDA Farm Production and Conservation - Business Center, Geospatial Enterprise Operations。
发布历史
- 2026 年 5 月(版本 1.0):初始版本发布。
论文引用
bibtex @InProceedings{Kristoffersen_2026_MMLandmarks, author = {Oskar Kristoffersen and Alba Reinders and Morten R. Hannemose and Anders B. Dahl and Dim P. Papadopoulos}, title = {MMLandmarks: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2026}, }




