MMLandmarks
收藏github2026-04-30 更新2026-05-02 收录
下载链接:
https://github.com/Oshkr/mml-codebase
下载链接
链接失效反馈官方服务:
资源简介:
MMLandmarks是一个多模态、实例级和大陆尺度的地标数据集,收集自美国。该数据集旨在解决地理空间任务中数据集和专用模型的不足,如地理定位、检索和跨视图定位,并提供一个能够训练和基准测试所有这些任务的模型的数据集。每个地标包含多个地面视图图像、时间卫星图像、地标的GPS坐标和文本信息。MMLandmarks提供了18,557个独特地标的数据,每个地标包含所有四种模态。
MMLandmarks is a multimodal, instance-level, and continental-scale landmark dataset collected from the United States. This dataset aims to address the limitations of existing datasets and specialized models in geospatial tasks such as geolocalization, image retrieval and cross-view localization, and provides a unified dataset for training and benchmarking models across all these tasks. Each landmark includes multiple ground-view images, temporal satellite images, the landmark's GPS coordinates and textual information. MMLandmarks contains data for 18,557 unique landmarks, with all four modalities covered for each individual landmark.
创建时间:
2026-04-28
原始信息汇总
🏢 MMLandmarks 数据集概述
基本信息
- 数据集名称:MMLandmarks
- 全称:MMLandmarks: a Cross-View Instance-Level Benchmark for Geo-Spatial Understanding
- 数据集规模:包含 18,557 个独特地标,每个地标均包含所有四种模态的数据
- 地理范围:覆盖美国全境(大陆尺度)
- 发布时间:2026年(CVPR 2026)
数据模态
每个地标包含以下四种模态数据:
- 地面视角图像(Ground View Images)—— 每个地标多张
- 时序卫星图像(Temporal Satellite Images)
- GPS 坐标(GPS Coordinates)
- 文本信息(Textual Information)
数据集用途
MMLandmarks 支持以下地理空间任务的训练与基准测试:
- 地理定位(Geolocalization)
- 图像检索(Retrieval)
- 跨视角定位(Cross-View Localization)
评估任务与指标
1. 跨视角定位(Cross-View Localization)
- G2S:地面图像 → 卫星图像检索:18,688 张查询地面图像,索引集包含 99,539 张干扰卫星图像 + 1,000 张正样本卫星图像
- S2G:卫星图像 → 地面图像检索:1,000 张查询卫星图像,索引集包含 714,554 张干扰地面图像 + 18,688 张正样本地面图像
- 评估指标:Recall@1、@5、@10,mAP@1k,medR
2. 地理定位(Geolocalization)
- G2C:地面图像 → GPS 坐标:从 99,539 个干扰坐标 + 1,000 个查询地标坐标中寻找最近 GPS
- S2C:卫星图像 → GPS 坐标:从 99,539 个干扰坐标 + 1,000 个查询地标坐标中寻找最近 GPS
- 评估指标:距离阈值准确率(@1km、@25km、@200km、@750km、@2500km)
3. 文本到 X 检索(Text-to-X Retrieval)
- T2G:文本 → 地面图像检索
- T2S:文本 → 卫星图像检索
- T2C:文本 → GPS 坐标地理定位
- 文本采样方式:首句(first)、随机句(random)、去除地理线索句(no_cue)
预训练模型与性能
模型配置
- 模态:GSTC(地面、卫星、文本、坐标)
- 训练设置:完整对比损失、首句采样、使用所有卫星图像
检索/跨视角定位结果
| 任务 | medR | mAP@1k | R@1 | R@5 | R@10 |
|---|---|---|---|---|---|
| G2S | 57 | 24.88 | 19.40 | 43.77 | 56.45 |
| S2G | 29 | 16.86 | 27.30 | 48.40 | 57.70 |
| T2G | 77 | 16.31 | 28.10 | 44.60 | 52.40 |
| T2S | 712 | 17.6 | 13.80 | 31.70 | 40.80 |
地理定位结果(去除地理线索文本)
| 任务 | @1km | @25km | @200km | @750km | @2500km |
|---|---|---|---|---|---|
| G2C | 16.6 | 36.0 | 50.77 | 74.6 | 92.3 |
| S2C | 26.4 | 50.3 | 71.3 | 91.9 | 98.9 |
| T2C(no_cues) | 6.1 | 17.8 | 28.7 | 51.9 | 87.7 |
数据集获取
- 完整数据集下载地址:MMLandmarks 数据集
- 数据集浏览:探索页面
- 代码库:GitHub 仓库
注意事项
- GPS 位置编码器基于 GeoCLIP(Vivanco 等,2023)
搜集汇总
数据集介绍

构建方式
MMLandmarks数据集构建于对美国大陆地标的多模态信息采集之上,涵盖了18,557个独特地标。每个地标均包含地面视角图像、时序卫星影像、精确的GPS坐标以及文本描述等四种模态数据。其构建过程旨在弥补现有地理空间任务数据集在地标实例级别统一性上的不足,通过整合多种传感器与信息来源,形成一个跨视图、跨模态的高质量基准。数据集的索引集合包含大量干扰项,以模拟真实世界中的检索与定位场景,确保评估的全面性与挑战性。
特点
该数据集的核心特点在于其多模态、实例级别和大尺度的整合能力。它不仅提供了地标的精细类别划分,还覆盖了美国全境,实现了地面与卫星视角的严格配对。时序卫星影像的纳入允许研究模型的地物变化感知能力,而文本描述与GPS坐标的融合则为多模态学习提供了丰富的语义与几何线索。其构建规模与数据多样性,使得MMLandmarks能够同时支持地理定位、跨视图检索与跨模态匹配等多个地貌智能任务,为模型的泛化性评估提供了坚实平台。
使用方法
使用MMLandmarks数据集时,用户可通过官方代码库轻松进行安装与配置。训练阶段需指定模态组合(如地面图、卫星图、文本和坐标)及损失函数类型。评估任务涵盖跨视图定位(G2S/S2G)、地理定位(G2C/S2C)以及文本到X的检索(T2G/T2S/T2C),各任务均提供详细的评估脚本与配置选项。数据集内置了海量干扰项索引,以模拟实际场景。此外,还提供了预训练模型及基于召回率、平均精度与中位排名等指标的标准化评估协议,便于研究者快速复现与对比算法性能。
背景与挑战
背景概述
MMLandmarks是由丹麦技术大学的研究团队于2025年创建的大规模多模态地标数据集,旨在推动地理空间理解领域的跨视角实例级基准研究。该数据集由Oskar Kristoffersen、Alba Reinders等人主导,覆盖美国全境的18,557个独特地标,为每个地标提供地面图像、时序卫星图像、GPS坐标及文本描述四种模态数据。这一资源填补了现有数据集在地理定位、跨视角检索和模态对齐等任务上的碎片化缺陷,为多模态地理空间模型的训练与评估提供了统一的平台,其发布有望激发研究者对跨模态地理推理机制的深入探索。
当前挑战
该数据集主要应对地理空间理解中的双重挑战。领域层面,传统模型难以在跨视角(地面与卫星)检索、地理定位及文本-图像跨模态匹配任务上实现鲁棒泛化,现有数据集多针对单一任务设计,缺乏统一的实例级多模态基准,限制了模型对地标空间语义的联合理解能力。构建过程中,团队需克服大规模多模态数据采集的复杂性:从全美范围精确匹配每个地标的地面与卫星图像,确保时序卫星数据的时效性,同时清洗文本描述中的地理噪声(如去除提示性线索),以构建具有严格对应关系的18,557个地标样本库,最终形成包含超过81万张图像的索引集与查询集,这对数据对齐与质量控制提出了严苛要求。
常用场景
经典使用场景
MMLandmarks作为首个跨视角、多模态、实例级别的大规模地标数据集,其最经典的使用场景在于联合地理定位、跨视角图像检索与图文匹配三项核心任务的统一评测。该数据集覆盖美国全境18,557个独特地标,每个地标均包含多角度地面图像、时序卫星影像、精确GPS坐标及结构化文本描述四种模态数据,为跨模态对齐与地理空间理解提供了高度一致的对照基准。研究者可基于该数据集开展从地面到卫星(G2S)、卫星到地面(S2G)的跨视角检索,以及文本驱动的图像与坐标检索任务(T2G、T2S、T2C),全面评估模型在多模态表征学习与空间推理能力上的表现。这种多任务统一的评测框架填补了以往数据集只能孤立评估单一任务的空白,推动了地理空间智能领域向更通用、更融合的方向发展。
解决学术问题
MMLandmarks数据集直面当前地理空间理解领域长期存在的两大核心学术问题:一是多模态数据在实例级别上的标注稀缺与模态不完整,二是任务碎片化导致模型泛化能力难以衡量。现有数据集或只提供单模态(如仅地面图像或仅卫星图像),或无法在同一实例粒度上对齐多种视角信息,限制了跨模态对齐方法的训练与验证。MMLandmarks通过为每个地标同时提供地面图像、卫星影像、GPS坐标与文本描述,构建了多模态完整的实例级对照集合,使研究者能够系统性地探究不同模态间的信息互补机制。此外,该数据集设计统一的任务接口,支持地理定位、跨视角检索与文本-图像匹配的联合评测,从而揭示了各任务间的内在关联与迁移规律。这一贡献不仅为地理空间推理提供了标准化的实验平台,也促使学术研究从单模态单任务走向多模态多任务统一理解,具有深远的方法论意义。
衍生相关工作
MMLandmarks数据集自发布以来,已催生出一系列富有影响力的衍生研究工作,巩固了其在地理空间多模态理解领域的基准地位。最直接的衍生工作体现在多模态对比学习框架的改进与发展上,例如研究人员基于该数据集提出的跨模态对齐网络,通过联合优化地面-卫星图像对比损失与文本-坐标回归损失,显著提升了跨视角检索与地理定位的联合精度。另一项重要工作是GeoCLIP的延续与扩展,该工作利用GPS坐标位置编码器将空间信息嵌入视觉与文本表征,实现了更加细粒度的地理语义对齐,其思想在MMLandmarks的基准评测中得到广泛验证与改进。此外,研究者还开发了基于MMLandmarks的多模态预训练模型,通过大规模多任务联合训练,使得单一模型在G2S、S2G、T2G、T2C等多个任务上均取得突破性性能,该模型已作为预训练权重开源,供社区复现与进一步探索。这些衍生工作相互叠加,形成了以MMLandmarks为核心的学术研究生态,不断驱动地理空间智能研究向前演进。
以上内容由遇见数据集搜集并总结生成



