GeoMeld

github2026-04-14 更新2026-04-17 收录

下载链接：

https://github.com/MaramAI/GeoMeld

下载链接

链接失效反馈

官方服务：

资源简介：

GeoMeld是一个大规模多模态遥感数据集，用于语义基础建模。它包含约250万个空间对齐的样本，涵盖光学影像、SAR、高程、冠层高度、土地覆盖产品和地理元数据，并通过代理标题生成框架配对了语义基础标题。数据集旨在支持多模态表示学习、视觉语言预训练、跨模态检索、下游分类和分割以及语义基础遥感基础模型。

GeoMeld is a large-scale multimodal remote sensing dataset for semantic grounding modeling. It contains approximately 2.5 million spatially aligned samples, covering optical imagery, SAR, elevation data, canopy height, land cover products and geographic metadata, and is paired with semantic grounding captions via a proxy caption generation framework. The dataset is designed to support multimodal representation learning, vision-language pre-training, cross-modal retrieval, downstream classification and segmentation tasks, as well as semantic grounding remote sensing foundation models.

创建时间：

2026-03-27

原始信息汇总

GeoMeld数据集概述

数据集基本信息

数据集名称：GeoMeld
核心目标：构建用于语义接地基础模型的大规模多模态遥感数据集
数据规模：约250万个空间对齐样本
主要特点：包含多模态遥感数据与通过智能体框架生成的语义接地描述

数据内容与模态

每个样本可能包含以下数据：

光学影像：Sentinel-2
合成孔径雷达影像：Sentinel-1
高分辨率影像：NAIP（当可用时）
高程数据：ASTER衍生的数字高程模型
冠层高度数据
土地覆盖产品：ESA WorldCover、Dynamic World
地理元数据
文本描述

数据集构建

地理锚点来源：基于现有数据集（如MMEarth和SkyScript）以及自定义采样策略
描述生成流程：采用多智能体框架生成语义接地的描述，包括协调器、描述生成器、评估器和验证器四个阶段，确保描述的物理一致性和语义接地性

支持任务

多模态表示学习
视觉语言预训练
跨模态检索
下游分类与分割任务
语义接地的遥感基础模型

预训练框架

框架名称：GeoMeld-FM
核心技术：结合多预文本掩码自编码、JEPA风格预测表示学习和描述-视觉对比对齐的统一预训练框架
学习目标：捕捉跨传感器物理一致性和语义接地概念

评估结果

在GeoBench基准测试中，使用完整GeoMeld-FM预训练的数据在多个数据集上取得最佳性能：

BigEarthNet：微调71.8 / 线性探测49.6
So2Sat：微调59.8 / 线性探测50.2
Cashew1K：微调83.2
Sacrop3K：微调42.7

相关资源

论文：https://arxiv.org/abs/2604.10591
数据集地址：https://huggingface.co/datasets/vimageiitb/GeoMeld
许可协议：Apache 2.0
详细文档：数据集卡片和下载页面见仓库文档

搜集汇总

数据集介绍

构建方式

在遥感领域，多模态数据的融合为理解地表复杂特征提供了新的视角。GeoMeld数据集的构建采用了地理锚点策略，整合了来自MMEarth和SkyScript等现有数据集的空间坐标，并结合自定义采样方法，确保了样本的广泛覆盖与代表性。通过精心设计的代理驱动多阶段流程，该数据集生成了约250万个空间对齐的样本，每个样本均包含光学影像、合成孔径雷达、高程数据、冠层高度、土地覆盖产品及地理元数据等多种异构模态信息，并辅以语义基础描述，实现了物理一致性与语义丰富性的统一。

特点

GeoMeld作为大规模多模态遥感数据集，其核心特点在于语义基础描述与异构数据的深度融合。数据集不仅囊括了Sentinel-2光学影像、Sentinel-1合成孔径雷达、高分辨率NAIP影像、ASTER高程、冠层高度以及ESA WorldCover和Dynamic World等土地覆盖产品，还通过代理驱动框架生成语义基础描述，确保了文本与视觉内容在物理和概念层面的一致性。这种多模态对齐设计为遥感基础模型的训练提供了丰富且结构化的信息源，支持跨模态检索、表示学习及下游任务的高效迁移。

使用方法

GeoMeld数据集适用于遥感基础模型的预训练与评估，其使用方法聚焦于多模态表示学习框架。研究者可利用数据集提供的对齐样本，结合GeoMeld-FM预训练框架，整合多预文本掩码自编码、JEPA式预测表示学习以及描述-视觉对比对齐等策略，以学习跨传感器物理一致且语义基础的表示。该数据集支持视觉语言预训练、跨模态检索、分类与分割等下游任务，用户可通过Hugging Face平台访问数据，并参考提供的评估基准进行模型性能验证与比较。

背景与挑战

背景概述

遥感领域正经历从传统单一模态分析向多模态融合与语义理解的关键转型，GeoMeld数据集应运而生，旨在构建语义接地的遥感基础模型。该数据集由印度理工学院孟买分校、印度空间研究组织空间应用中心、特伦托大学及穆罕默德·本·扎耶德人工智能大学的研究团队于2026年联合创建，核心研究问题聚焦于如何整合光学影像、合成孔径雷达、高程、冠层高度及土地覆盖产品等多源异构数据，并通过语义接地的描述生成，推动跨模态表征学习与视觉语言预训练。其大规模、多模态对齐的特性为遥感智能解译提供了统一基准，显著提升了下游分类、分割及检索任务的性能，对地理空间人工智能的发展具有深远影响。

当前挑战

GeoMeld数据集致力于解决遥感领域多模态语义融合的复杂挑战，其核心问题在于如何实现跨传感器数据的物理一致性建模与高层次语义对齐。具体挑战包括：在领域层面，遥感影像受大气条件、季节变化及传感器差异影响，导致模态间表征异构性显著，难以建立统一的语义映射；同时，地理场景的多样性与标注稀缺性制约了模型对细粒度地物概念的泛化能力。在构建过程中，团队需克服多源数据时空对齐的技术难题，设计高效的代理标注流程以确保描述文本的语义准确性与物理一致性，并处理海量异构数据带来的存储与计算瓶颈。

常用场景

经典使用场景

在遥感科学领域，GeoMeld数据集为多模态基础模型的预训练提供了核心支持。其经典使用场景聚焦于整合光学影像、合成孔径雷达、高程数据及土地覆盖产品等多种异构遥感模态，通过空间对齐的样本与语义化标注，驱动模型学习跨传感器的物理一致性与语义关联。这一设计使得研究人员能够在大规模多源数据上开展表征学习，为后续的视觉-语言对齐、跨模态检索等任务奠定坚实基础，显著提升了遥感智能解译的泛化能力。

衍生相关工作

围绕GeoMeld数据集，已衍生出若干重要的研究工作，其中以GeoMeld-FM统一预训练框架最为典型。该框架创新性地结合了多预文本掩码自编码、JEPA式预测表征学习以及视觉-文本对比对齐，旨在学习具有跨传感器一致性与语义接地性的表征。此外，基于该数据集的评估基准GeoBench也被广泛采用，用于系统比较不同预训练策略在BigEarthNet、So2Sat等下游任务上的性能，推动了遥感基础模型在分类、分割与检索等方向的算法进步。

数据集最近研究