MMLandmarks Dataset

github2026-04-30 更新2026-05-08 收录

下载链接：

https://github.com/Oshkr/mmlandmarks

下载链接

链接失效反馈

官方服务：

资源简介：

MMLandmarks是一个多模态地标数据集，包含来自美国18,557个地标的329k地面视图、197k航空视图、GPS坐标和文本描述。该数据集旨在支持地理定位、跨视图地面到卫星和卫星到地面定位以及任意到任意检索等多种地理空间任务的模型训练。

MMLandmarks is a multimodal landmark dataset containing 329k ground-level views, 197k aerial views, GPS coordinates, and textual descriptions from 18,557 landmarks across the United States. This dataset is designed to support model training for various geospatial tasks, including geolocation, cross-view ground-to-satellite and satellite-to-ground localization, and arbitrary-to-arbitrary retrieval.

创建时间：

2026-04-14

原始信息汇总

MMLandmarks 数据集概述

基本信息

MMLandmarks（多模态地标数据集）是一个用于地理空间理解的跨视图实例级基准数据集，相关论文发表于 CVPR 2026。该数据集首次将跨视图定位扩展到细粒度的洲际尺度。

数据来源：基于 Google Landmarks Dataset v2 (GLDv2) 的数据收集流程，结合 OpenStreetMaps (OSM) 和美国国家农业影像计划 (NAIP) 的信息构建。
覆盖范围：美国境内 18,557 个地标，每个地标关联了 Wikipedia 和 Wikimedia Commons 页面。
数据模态：包含地面图像、航空图像、GPS 坐标和文本描述四种模态。

数据集统计

划分	地标数	地面图像	卫星图像	GPS 坐标	文本描述
train	17,557	310,661	186,574	17,557	17,557
query	1,000	18,688	10,631	1,000	1,000
index (ground)	—	714,554	—	—	—
index (satellite)	—	—	99,539	99,539	—
总计	18,557	~1,043,903	~296,744	118,096	18,557

数据集划分

训练集 (train)

地标数量：17,557 个
数据内容：310K 地面图像、186K 卫星图像、17,557 个 GPS 坐标、17,557 条文本描述
下载文件：地面图像分为 80 个 TAR 文件（各约 800MB），卫星图像分为 200 个 TAR 文件（各约 850MB），文本数据为 1 个 TAR 文件（约 106MB）

查询集 (query)

地标数量：1,000 个
数据内容：18,688 张地面图像、1,000 张卫星图像（提供完整卫星查询集 10,631 张）、1,000 个 GPS 坐标、1,000 条文本描述
下载文件：地面图像分为 4 个 TAR 文件（各约 900MB），卫星图像分为 10 个 TAR 文件（各约 950MB），文本数据为 1 个 TAR 文件（约 7MB）

索引集 (index)

数据内容：
- 地面索引：714,554 张来自 GLDv2 索引集的图像（已过滤掉 MMLandmarks 中的地标）
- 卫星索引：99,539 张从 NAIP 采样的图像
- GPS 索引：99,539 个卫星索引集图像的中心坐标
下载文件：地面图像分为 80 个 TAR 文件（各约 1GB），卫星图像分为 120 个 TAR 文件（各约 1GB）

文件结构

MMLandmarks/ ├── mmlandmarks.csv ├── train/ │ ├── mml_train.csv, mml_train_ground.csv, mml_train_satellite.csv, mml_train_text.csv, mml_train_licenses.csv │ ├── ground/{a}/{b}/{c}/{image_id}.jpg │ ├── satellite/{a}/{b}/{c}/{image_id}.png │ └── text/{a}/{b}/{c}/{text_id}.json ├── index/ │ ├── mml_index_ground.csv, mml_index_satellite.csv │ ├── ground/{a}/{b}/{c}/{image_id}.jpg │ └── satellite/{a}/{b}/{c}/{image_id}.png └── query/ ├── mml_query.csv, mml_query_ground.csv, mml_query_satellite.csv, mml_query_text.csv, mml_query_licenses.csv ├── mml_query_all_satellite.csv, mml_query_text_sentences.csv ├── ground/{a}/{b}/{c}/{image_id}.jpg ├── satellite/{a}/{b}/{c}/{image_id}.png └── text/{a}/{b}/{c}/{text_id}.json

文件名格式：{a}, {b}, {c} 为图像/JSON 文件 ID 的前三个字符，例如 ID 为 0123456789abcdef 的地面图像存储在 train/ground/0/1/2/0123456789abcdef.jpg。

元数据文件

mmlandmarks.csv：包含所有 18,557 个地标的详细信息，字段包括：landmark_id、CommonsCategory、WikipediaPage、lat、lon、bounding box、QID、osm_type、osm_id、category、state、hierarchical_category。
训练集 CSV 文件：各模态的标签和元数据文件（mml_train.csv、mml_train_ground.csv、mml_train_satellite.csv、mml_train_text.csv、mml_train_licenses.csv）。
查询集 CSV 文件：各模态的标签和元数据文件（mml_query.csv、mml_query_ground.csv、mml_query_satellite.csv、mml_query_text.csv、mml_query_licenses.csv），以及额外查询文件（mml_query_all_satellite.csv、mml_query_text_sentences.csv）。
索引集 CSV 文件：mml_index_ground.csv、mml_index_satellite.csv。

许可证信息

地面图像：采用 Creative Commons 和 Public Domain 许可证，许可证信息可在 mml_train_licenses.csv 和 mml_query_licenses.csv 中查询。
卫星图像：由美国农业部农场服务局通过国家农业影像计划 (NAIP) 提供，属于公共领域信息。使用时需注明 USDA Farm Production and Conservation - Business Center, Geospatial Enterprise Operations。

发布历史

2026 年 5 月（版本 1.0）：初始版本发布。

论文引用

bibtex @InProceedings{Kristoffersen_2026_MMLandmarks, author = {Oskar Kristoffersen and Alba Reinders and Morten R. Hannemose and Anders B. Dahl and Dim P. Papadopoulos}, title = {MMLandmarks: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2026}, }

搜集汇总

数据集介绍

构建方式

MMLandmarks数据集以跨视角地理定位为核心任务，首次将实例级地标识别拓展至大陆尺度。其构建灵感源自Google Landmarks Dataset v2，并融合了OpenStreetMap的地理信息与NAIP航空影像。数据集涵盖美国境内18,557个地标，每个地标均从维基百科及维基共享资源获取多张地面与航拍图像、唯一GPS坐标及文本描述，总计包含约32.9万张地面图像、19.7万张航拍图像、18,557个GPS坐标及相同数量的文本描述。数据被划分为训练集、查询集和索引集，其中索引集包含来自GLDv2的71.4万张地面图像与来自NAIP的9.9万张航拍图像，构成具有挑战性的检索库。

特点

该数据集的核心特色在于其多模态与跨视角的深度融合。每个地标均同时拥有地面与卫星视角的视觉数据、精确地理坐标及结构化文本描述，为地理定位、跨视角检索及任意模态间的匹配提供了统一基准。数据集规模宏大，覆盖美国全境，且索引集的构建严格过滤了训练集地标，有效避免了数据泄露。此外，训练集中还提供了经视觉语言模型过滤的室外地面图像子集，增强了模型在真实场景下的泛化能力。数据组织方式借鉴GLDv2的层级目录结构，并附有完整的CSV元数据文件，便于高效解析与使用。

使用方法

使用MMLandmarks数据集时，用户需先通过提供的CSV文件获取地标ID、GPS坐标及文件路径等元信息，随后借助下载脚本从指定链接获取TAR压缩包。数据按训练、查询、索引三部分组织，每部分均有独立的CSV文件对应地面图像、卫星图像及文本描述。下载后需按GLDv2风格解压至嵌套目录，如train/ground/a/b/c/image_id.jpg。数据集支持地理定位、地面到卫星及卫星到地面的跨视角检索、任意模态检索等任务，用户可依据论文中的训练与评估代码库快速复现基线实验。同时，数据集提供了MD5校验文件以确保传输完整性。

背景与挑战

背景概述

MMLandmarks数据集由丹麦技术大学（DTU）的Oskar Kristoffersen、Alba Reinders等研究人员于2026年创建，发表于CVPR 2026。该数据集将跨视角地理定位（Cross-View Localization）首次拓展至洲际尺度与细粒度级别，核心研究问题在于融合地面图像、卫星图像、GPS坐标与文本描述等多模态信息，实现从地面到卫星、卫星到地面乃至任意模态间的精准检索与地理空间理解。其构建灵感源于Google Landmarks Dataset v2（GLDv2），并整合了OpenStreetMap与NAIP数据，覆盖美国18,557个地标，包含近53万张图像与相应文本，为地理定位、多模态检索等领域提供了大规模基准，显著推动了地理空间智能的研究进展。

当前挑战

该数据集所解决的领域挑战在于突破传统跨视角定位在范围与粒度上的局限，现有方法多限于城市或局部区域，难以应对大陆级尺度下视角剧烈变化、地面与卫星外观差异大、环境背景复杂等难题。构建过程中面临的挑战包括：从维基百科与维基共享中筛选地标时需确保覆盖广泛性与代表性，并过滤低质量或重复图像；从NAIP获取卫星影像需处理多时相、多分辨率数据的一致性问题；还需精细对齐OSM地理多边形与GPS坐标，并设计分层类别标签以支持细粒度识别。此外，大规模数据的存储、索引与高效下载也构成工程挑战。

常用场景

经典使用场景

在地理空间智能领域，MMLandmarks数据集以其多模态、跨视角的独特优势，为细粒度地理定位任务奠定了全新基准。经典使用场景聚焦于跨视角定位中任意模态至任意模态的检索任务，即通过地面图像、卫星图像、GPS坐标或文本描述中的任一输入，从大规模数据库中精准匹配对应的地标实例。该设计突破了传统跨视角定位局限于单一视角对的藩篱，首次将检索尺度拓展至大陆级别，涵盖18,557个美国地标，汇聚近53万张地面与卫星图像及配套文本，为构建真正的通用地理智能系统提供了关键数据基石。

实际应用

在现实应用中，MMLandmarks数据集赋能了一系列具有重大社会价值的技术落地。在城市规划方面，模型可通过街景与卫星图的协同分析自动识别与更新地标建筑信息；在自动驾驶与无人机导航中，车辆或飞行器能利用多模态检索实时校正自身位置，尤其在GPS信号薄弱的城区或复杂纹理区域。此外，该数据集的文本-图像对齐能力也为考古遗址巡查、自然灾害后的建筑快速识别及旅游智能导览等场景提供了高效解决方案，展现了地理智能嵌入日常生活的广阔前景。

衍生相关工作

MMLandmarks数据集的发布催生了多项衍生研究工作。其构建流程深受Google Landmarks Dataset v2启发，但创新性地引入了OpenStreetMap的地理围栏信息与NAIP的高分辨率正射影像，形成了跨视角地标检索的新范式。基于该基准，学者们已开始探索层次化地标分类体系、视觉语言模型驱动的室外图像筛选子集（如VLM-filtered ground子集），以及去除地理线索的文本句子变体，为消融研究提供了丰富变量。这些工作共同指向一个趋势：融合空间、视觉与语义先验的跨模态表征学习将成为地理定位领域的下一个前沿热点。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集