GeoMeld

Hugging Face2026-04-14 更新2026-04-15 收录

下载链接：

https://huggingface.co/datasets/vimageiitb/GeoMeld

下载链接

链接失效反馈

官方服务：

资源简介：

GeoMeld 是一个大规模多模态遥感数据集，旨在支持多模态表示学习、视觉-语言建模和地球观测中的跨传感器泛化。该数据集包含约250万个空间对齐的样本，涵盖多种传感模态和空间分辨率，并配有通过代理流程生成的语义基础描述。每个样本包括高分辨率（1米）的NAIP RGB影像和中分辨率（10米）的Sentinel-2多光谱影像、Sentinel-1 SAR后向散射、ASTER-DEM高程和地形坡度、冠层高度以及土地覆盖产品（如Dynamic World和ESA WorldCover）。所有10米模态数据均对齐到128×128网格，而高分辨率NAIP影像则提供1280×1280的精细空间上下文。数据集以约50GB的WebDataset（.tar）分片形式存储，支持直接从Hugging Face Hub流式传输到PyTorch训练管道。数据集适用于图像分类、图像分割、零样本图像分类、文本到图像、图像到文本和特征提取等任务。

创建时间：

2026-04-01

原始信息汇总

GeoMeld 多模态地球观测数据集概述

数据集基本信息

数据集名称: GeoMeld Multi-Modal Earth Observation Dataset (WebDataset)
发布机构/作者: Maram Hasan 等
关联论文: GeoMeld: Toward Semantically Grounded Foundation Models for Remote Sensing (CVPR Workshop on Foundation and Large Vision Models in Remote Sensing (MORSE), 2026)
论文链接: https://arxiv.org/abs/2604.10591
代码仓库: https://github.com/MaramAI/GeoMeld/
许可协议: Apache-2.0
任务类别: 图像分类、图像分割、零样本图像分类、文本到图像、图像到文本、特征提取
标签: 遥感、地球观测、多模态、sentinel-2、sentinel-1、naip、土地覆盖、图像描述、webdataset、hdf5

数据集规模与构成

样本数量: 约 250 万个空间对齐的样本。
数据总量: 约 50GB（以 WebDataset .tar 分片形式存储）。
数据子集:
- NAIP 子集: 包含高分辨率 NAIP 影像。
- 非 NAIP 子集: 仅包含中分辨率数据。
数据格式: 数据被归档为 WebDataset (.tar) 分片，每个分片包含 .h5 (HDF5) 文件。

数据内容与模态

每个样本是一个跨多分辨率空间对齐的多模态元组。

空间分辨率与数据源

高分辨率 (~1米):
- 数据源: 美国国家农业影像计划 (NAIP)。
- 地面采样距离 (GSD): 1米。
- 影像尺寸: 1280 × 1280 像素。
- 覆盖范围: 美国本土。
- 波段: RGB（红、绿、蓝）。
中分辨率 (10米，标准化网格):
- 网格尺寸: 128 × 128 像素。
- 包含模态:
  - Sentinel-2 (S2): 多光谱光学影像。
  - Sentinel-1 (S1): SAR 后向散射。
  - ASTER-DEM: 高程和地形坡度。
  - 冠层高度。
  - 土地覆盖产品: Dynamic World, ESA WorldCover。

数据模态详情（按 HDF5 文件键名）

模态键名	NAIP 子集形状 (`_n.tar`)	非 NAIP 子集形状	数据类型	描述
`naip`	(3, 1280, 1280)	—	`uint16`	NAIP RGB 影像（1米 GSD）
`sentinel2`	(9, 128, 128)	(12, 128, 128)	`float32`	Sentinel-2 多光谱影像。非 NAIP 子集含 B1–B12 波段；NAIP 子集含 B1–B12（除 B2–B4）波段。
`sentinel1`	(8, 128, 128)	(8, 128, 128)	`float32`	Sentinel-1 SAR 后向散射（VV, VH, HH, HV 的升轨和降轨）
`aster`	(2, 128, 128)	(2, 128, 128)	`float32`	ASTER 高程和坡度
`canopy_height`	(2, 128, 128)	(2, 128, 128)	`float32`	冠层高度及其标准差

标签与元数据

键名	形状	数据类型	描述
`esa_worldcover`	(1, 128, 128)	`uint8`	ESA WorldCover 土地覆盖标签
`dynamic_world`	(1, 128, 128)	`uint8`	Dynamic World 土地覆盖标签
`metadata`	JSON	—	地理和上下文属性

元数据字段示例

metadata 字段为 JSON 格式，包含以下示例属性： json { "tile_id": 1232154454, "lat": 71.5545, "long": 71.0397, "acquisition_date": "2020-09-24", "terrain_class": "Flat", "file_type_naip": true, "osm_tags": { "building": "yes", "highway": "residential" }, "water_analysis": { "detected": true, "percentage": 4.98 } }

其中，file_type_naip 字段用于标识样本是否属于 NAIP 子集。

数据集特点与用途

核心特点: 大规模、多模态、空间对齐、包含语义接地描述。
主要用途: 支持多模态表示学习、视觉-语言建模、地球观测中的跨传感器泛化。
技术优势: 采用 WebDataset 格式，支持从 Hugging Face Hub 直接流式读取，无需下载全部数据，便于大规模训练。

文件命名约定

高分辨率分片 (NAIP): 文件名包含后缀 _n（例如：geomeld-00004_n.tar）。
中分辨率分片 (非 NAIP): 文件名不包含 _n 后缀（例如：geomeld-00008.tar）。

引用格式

bibtex @misc{hasan2026geomeldsemanticallygroundedfoundation, title={GeoMeld: Toward Semantically Grounded Foundation Models for Remote Sensing}, author={Maram Hasan and Md Aminur Hossain and Savitra Roy and Souparna Bhowmik and Ayush V. Patel and Mainak Singha and Subhasis Chaudhuri and Muhammad Haris Khan and Biplab Banerjee}, year={2026}, eprint={2604.10591}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.10591}, }

搜集汇总

数据集介绍

构建方式

在遥感与地球观测领域，多模态数据的融合对于提升模型对复杂地表特征的理解至关重要。GeoMeld数据集通过精心设计的空间对齐流程，整合了约250万个样本，覆盖了从高分辨率NAIP影像到中分辨率Sentinel-2、Sentinel-1等多种异构传感模态。这些数据经过严格的配准处理，确保不同分辨率与波段的影像在空间上精确对齐，并辅以地形、植被高度及土地覆盖产品。此外，数据集采用自动化智能流程生成语义基础描述文本，为每个样本提供丰富的上下文信息，从而构建出一个支持多模态表示学习与跨传感器泛化的大规模基准。

特点

GeoMeld的突出特点在于其多层次的空间分辨率与丰富的模态组合。高分辨率NAIP影像提供1米地面采样距离的RGB细节，而中分辨率数据则统一在128×128网格上，囊括多光谱、合成孔径雷达、高程等多源信息。数据集不仅包含原始遥感影像，还整合了ESA WorldCover与Dynamic World等土地覆盖标签，以及地理元数据与语义描述，形成完整的多模态对齐元组。这种结构使得GeoMeld能够同时支持图像分类、分割、视觉-语言建模等多种任务，为遥感基础模型的研究提供了全面而一致的实验平台。

使用方法

为便于大规模训练，GeoMeld以WebDataset格式组织，约50GB的分片数据可通过流式加载直接集成到PyTorch等深度学习框架中。用户可使用huggingface_hub库从Hub获取分片，或下载至本地后通过WebDataset接口读取。每个分片内的HDF5文件存储了影像数组、标签及元数据，通过简单的解码函数即可转换为张量形式，进而接入DataLoader进行批量训练。数据集还提供详细的元数据字段，如地理位置、采集日期及OSM标签，支持用户根据具体研究需求灵活筛选与定制样本。

背景与挑战

背景概述

遥感领域正经历从单一传感器分析向多模态融合的范式转变，亟需能够支撑基础模型训练的大规模、高质量数据集。GeoMeld数据集应运而生，由Maram Hasan等研究人员在CVPRW 2026上提出，旨在构建一个语义对齐的多模态地球观测数据集。该数据集整合了来自美国国家农业影像计划的高分辨率RGB影像、哨兵系列卫星的光学与合成孔径雷达数据、ASTER数字高程模型以及多种土地覆盖产品，共计约250万个空间对齐样本，并辅以通过智能流程生成的语义描述。其核心研究聚焦于推动遥感领域的多模态表征学习、视觉-语言建模及跨传感器泛化能力，为构建具有语义理解能力的遥感基础模型提供了关键数据支撑。

当前挑战

在遥感多模态基础模型构建的背景下，GeoMeld致力于解决异构数据融合与语义对齐的核心挑战。具体而言，其面临的领域问题挑战包括：如何有效整合不同空间分辨率（如1米与10米）、不同物理特性（光学与雷达）以及不同时间序列的遥感数据，并实现跨模态的语义一致性表征。在数据集构建过程中，挑战同样显著：首先，大规模多源数据的精确空间配准与标准化处理涉及复杂的几何校正与网格化流程；其次，为海量样本生成高质量、语义丰富的描述文本，需要设计稳健的自动化标注管道以克服人工标注的规模瓶颈；此外，以WebDataset格式组织数十GB的数据分片，旨在应对超大规模数据高效流式读取与管理的工程难题。

常用场景

经典使用场景

在遥感与地球观测领域，多模态数据融合已成为推动智能解译技术发展的核心动力。GeoMeld数据集以其约250万个空间对齐的多模态样本，为研究人员提供了一个经典的实验平台，尤其适用于多模态表示学习与视觉-语言建模。该数据集整合了高分辨率NAIP影像、中分辨率Sentinel-2多光谱与Sentinel-1 SAR数据，以及地形、冠层高度和土地覆盖产品，通过语义基础描述文本的配对，支持模型在异构传感器与多分辨率条件下进行联合表征学习，为遥感基础模型的预训练与微调奠定了坚实的数据基础。

解决学术问题

GeoMeld的构建旨在应对遥感领域中多模态对齐、跨传感器泛化与语义基础建模等关键学术挑战。传统遥感数据集往往局限于单一传感器或缺乏语义标注，难以支撑端到端的视觉-语言任务。该数据集通过智能代理流程生成语义基础描述，并实现多源数据的空间对齐，有效解决了多模态遥感数据在表征学习中的异构融合问题，促进了模型在土地覆盖分类、变化检测、场景理解等任务上的零样本与少样本泛化能力，为遥感基础模型的研究提供了标准化、大规模的数据基准。

衍生相关工作

围绕GeoMeld数据集，一系列经典研究工作已在多模态遥感基础模型领域展开。例如，基于其多模态对齐特性，研究者开发了能够同时处理光学、SAR与高程数据的统一编码器，实现了跨模态的特征共享与迁移学习。在视觉-语言建模方面，该数据集催生了多个遥感专用图文预训练模型，这些模型通过对比学习或掩码建模策略，学习视觉特征与语义描述的关联，显著提升了零样本土地覆盖分类与场景描述的准确性。此外，GeoMeld也作为基准数据集，被用于评估新兴基础模型在遥感任务上的泛化与适应能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集