Major-TOM/Core-S2L2A-249k-SatCLIP

Name: Major-TOM/Core-S2L2A-249k-SatCLIP
Creator: Major-TOM
Published: 2026-05-04 09:27:21
License: 暂无描述

Hugging Face2026-05-04 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/Major-TOM/Core-S2L2A-249k-SatCLIP

下载链接

链接失效反馈

官方服务：

资源简介：

Core-S2RGB-249k-SatCLIP是一个地理空间视觉嵌入数据集，通过SatCLIP模型从Core-S2L2A-249k数据集计算得出。该数据集包含248,719个384×384像素的补丁，经过预处理、调整大小、编码和后处理等步骤，生成512维的图像嵌入。数据集还包括地理空间元数据，如几何形状、中心经纬度等。数据集格式为GeoParquet，适用于文本到图像、图像到图像等任务。

Core-S2RGB-249k-SatCLIP is a geospatial-vision embedding dataset computed from Core-S2L2A-249k using the SatCLIP model. It consists of 248,719 patches of 384 × 384 pixels, processed through a pipeline that includes pre-processing, resizing, encoding, and post-processing to generate 512-dimensional image embeddings. The dataset also includes geospatial metadata such as geometry, center latitude, and longitude. The dataset is in GeoParquet format and is suitable for tasks like text-to-image and image-to-image.

提供机构：

Major-TOM

搜集汇总

数据集介绍

构建方式

Core-S2L2A-249k-SatCLIP数据集源自Core-S2L2A-249k源影像集，其中包含248,719个384×384像素的哨兵-2 L2A影像块。构建流程起始于预处理阶段，将每个影像块的全部12个光谱波段堆叠并除以1e4转换为反射率值，随后插值至SatCLIP模型所需的224×224像素尺寸，并在第10索引处填充零值通道以匹配13通道输入要求。经SatCLIP图像编码器（基于ResNet-50架构，通过位置感知对比学习在卫星影像上训练）处理后，输出512维的图像嵌入向量。最终，将原始UTM足迹重投影至EPSG:4326坐标系，生成地理空间元数据字段，并以GeoParquet格式存储，确保数据高效压缩与便捷加载。

特点

该数据集的核心特点在于融合了高光谱遥感影像与地理空间先验知识，通过SatCLIP模型生成语义丰富的嵌入表征。每个嵌入向量维度为512，不仅编码了影像的光谱与空间结构信息，还隐含了地理位置上下文，适用于跨模态检索与地理空间分析任务。数据集保留了完整的元数据，包括采集时间戳、产品标识、网格单元、中心经纬度及原始足迹等，支持基于空间位置和时间的精细查询。采用GeoParquet格式，兼顾了地理空间数据的高效存储与分布式处理能力，便于集成到地理信息系统工作流中。

使用方法

使用该数据集时，推荐通过Pandas或DuckDB读取GeoParquet文件，直接调用`pd.read_parquet('SatCLIP_crop_384x384.parquet')`即可加载全部248,719个嵌入向量及其元数据。在检索任务中，用户需对查询影像经相同预处理流程生成嵌入，并在推理阶段对嵌入向量进行L2归一化以计算余弦相似度。数据集支持灵活的地理空间过滤，例如基于`centre_lat`和`centre_lon`字段按区域筛选，或利用`timestamp`字段进行时间范围限定。结合点云库或地理空间索引，可高效实现大规模近邻搜索与跨模态匹配应用。

背景与挑战

背景概述

随着遥感卫星技术的飞速发展，海量多光谱影像数据的涌现为地理空间智能研究提供了前所未有的机遇。在此背景下，由多机构研究人员于2024至2026年间共同构建的Core-S2L2A-249k-SatCLIP数据集应运而生，该数据集依托Major-TOM框架与SatCLIP模型，从24.8万余幅Sentinel-2 L2A影像中提取了512维的地理空间视觉嵌入特征。其核心研究问题在于如何将对比语言-图像预训练范式与位置感知学习相结合，生成兼具光谱信息与空间语义的紧凑表示，从而服务于跨模态检索、地理定位等下游任务。这一数据集通过将原始12波段遥感影像嵌入至统一的特征空间，显著推动了地理空间基础模型在可扩展性与实用性方面的发展。

当前挑战

该数据集所面临的挑战主要体现在两个层面。在领域问题层面，传统遥感影像分析往往受限于光谱波段数量与空间分辨率的权衡，难以实现跨区域、多时相的高效检索；而SatCLIP模型虽能融合光谱与位置信息，但如何确保嵌入特征在极端气候带或边缘地理区域仍保持鲁棒性，仍是亟待解决的难题。在构建过程中，技术挑战集中于预处理流程的精细化：将384×384像素的12波段影像缩放至224×224像素输入尺寸时需避免光谱失真，同时必须通过填充零值通道满足模型所需的13通道标准。此外，海量UTM投影坐标需精确重投影至WGS-84坐标系以保留几何完整性，而嵌入后处理阶段有意省略L2归一化，将标准化操作留待下游动态执行，这要求用户对特征空间的理解具备一定深度。

常用场景

经典使用场景

Core-S2L2A-249k-SatCLIP作为地球观测领域中遥感影像的语义嵌入数据集，其核心应用在于利用SatCLIP模型将哨兵二号多光谱影像（12个波段）编码为512维的稠密特征向量。这一表征方式能够捕捉影像的空间与光谱信息，广泛应用于地理空间场景的相似性检索、影像聚类与分类任务中。研究人员常以此数据集为锚点，构建跨区域、跨时相的遥感影像匹配系统，从而实现对地表覆盖类型、土地利用模式的高效识别与对比。

解决学术问题

该数据集有力地攻克了遥感影像中语义鸿沟与地理位置关联性不足的学术挑战。传统遥感影像特征提取方法往往忽略地理位置对视觉语义的潜在约束，导致模型在不同区域泛化能力有限。Core-S2L2A-249k-SatCLIP通过融合位置编码与对比学习策略，实现了地理位置感知的视觉嵌入，显著提升了跨区域影像检索与场景理解的准确性。其解决的核心问题包括如何在大规模无标签遥感影像中学习具有地理判别力的表示，以及如何弥合影像底层像素与高层语义之间的差距，为地理空间智能研究提供了坚实的基准。

衍生相关工作

该数据集衍生了一系列影响深远的研究工作。其中，EarthEmbeddingExplorer作为一项标志性成果，基于Core-S2L2A-249k-SatCLIP开发了一套跨模态全球卫星影像检索的Web应用，首次将文本到图像与图像到图像的检索能力整合于同一平台，推动了地理空间数据的交互式探索。此外，Major TOM项目利用此嵌入数据集构建了可扩展的地球观测基准，验证了大规模遥感嵌入在模型迁移学习与预训练中的价值，催生了诸多关于位置感知视觉表征的后续研究，进一步巩固了SatCLIP系列方法在地理空间机器学习领域的理论地位。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集