five

Major-TOM/Core-S2RGB-249k-FarSLIP

收藏
Hugging Face2026-05-04 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/Major-TOM/Core-S2RGB-249k-FarSLIP
下载链接
链接失效反馈
官方服务:
资源简介:
Core-S2RGB-249k-FarSLIP是一个基于Core-S2L2A-249k数据集并使用FarSLIP模型计算得到的视觉语言嵌入数据集。数据集包含248,719个384×384像素的Sentinel-2 L2A图像块,经过RGB波段(B04, B03, B02)堆叠和归一化处理后,通过FarSLIP模型提取768维的图像嵌入。数据集还包括丰富的地理空间元数据,如几何形状、中心经纬度、时间戳等。输出格式为GeoParquet,许可证为CC-BY-SA-4.0。

Core-S2RGB-249k-FarSLIP is a vision-language embedding dataset computed from Core-S2L2A-249k using the FarSLIP model. The dataset contains 248,719 patches of 384 × 384 px Sentinel-2 L2A imagery, with RGB bands (B04, B03, B02) stacked and normalized to produce true-color images. The FarSLIP model extracts 768-dimensional image embeddings. The dataset includes rich geospatial metadata such as geometry, center latitude/longitude, and timestamps. The output format is GeoParquet, and the license is CC-BY-SA-4.0.
提供机构:
Major-TOM
搜集汇总
数据集介绍
main_image_url
构建方式
Core-S2RGB-249k-FarSLIP数据集是基于Sentinel-2 L2A遥感影像构建的视觉-语言嵌入数据集,其原始影像来源于Core-S2L2A-249k,包含248,719个尺寸为384×384像素的影像块。构建流程首先从源Parquet文件中读取每个影像块,并提取RGB波段(B04、B03、B02)进行堆叠与归一化处理,采用公式2.5*(波段值/10000)并约束至[0,1]区间以生成真彩色图像。随后,将图像通过最近邻插值缩放至FarSLIP模型所需的224×224像素输入尺寸,并输入至经过遥感数据微调的CLIP模型——FarSLIP的视觉编码器中,提取出768维的图像特征向量。最终,将原始的UTM地理足迹重投影至EPSG:4326坐标系以获得经纬度信息,同时保留product_id、grid_cell等元数据字段,以GeoParquet格式存储。
特点
该数据集的核心特色在于其双重复合性:一是基于大规模全球遥感影像数据集Major-TOM的子集,覆盖广泛的地理空间范围;二是采用专为遥感任务设计的FarSLIP视觉编码器进行特征提取,相较于通用CLIP模型,在卫星图像理解上具有更强的领域适配性。每个嵌入向量维度为768,与主流视觉-语言检索框架兼容,且保留了丰富的地理时空元数据,包括几何足迹、中心经纬度、采集时间戳及UTM投影信息,便于空间索引与地理查询。值得注意的是,数据集在生成时未对嵌入向量进行L2归一化,将归一化决策权留给下游任务,增加了使用的灵活性。此外,数据以高效列式存储格式GeoParquet发布,支持快速随机访问与分布式处理。
使用方法
用户可通过Python中的Pandas库便捷地读取与使用此数据集,只需调用pd.read_parquet('FarSLIP_crop_384x384.parquet')即可加载全部248,719条嵌入记录,每条记录包含一个768维的浮点向量。对于图像-文本跨模态检索任务,用户需要自行对嵌入进行L2归一化处理以计算余弦相似度;数据集可作为大规模地理视觉检索系统的嵌入索引库,支持基于语义相似度的卫星图像搜索。在应用时,可结合地理元数据字段(如centre_lat、centre_lon)实现空间约束下的检索,或利用timestamp字段进行时间序列分析。此外,数据集的unique_id字段提供了去重标识,方便进行整合与增量更新。研究人员在使用时应引用原始Major-TOM论文与FarSLIP相关文献。
背景与挑战
背景概述
Core-S2RGB-249k-FarSLIP数据集诞生于遥感领域对高效视觉表征需求的激增之际,由研究团队基于Major-TOM框架中的Core-S2L2A-249k源数据集,利用基于CLIP微调的FarSLIP模型,于2026年构建完成。该数据集旨在解决遥感图像跨模态检索与地理空间理解的核心研究问题,通过提取Sentinel-2卫星图像中249,719个384×384像素斑块的768维嵌入向量,为地球观测任务提供标准化特征表示。作为首个大规模遥感图像嵌入集,它显著提升了地理空间分析的可复现性与效率,在ICLR 2026 Workshop ML4RS Tutorial Track中获口头报告认可,推动了遥感与计算机视觉交叉领域的发展。
当前挑战
数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域层面,遥感图像存在尺度多样性、光谱复杂性及大范围地理覆盖特性,传统视觉模型难以泛化捕捉细微地物差异,而FarSLIP嵌入需在保持高判别力的同时适应不同景观的语义跨度,这对跨模态检索精度构成持续考验。构建过程中,数据处理需解决多源卫星产品的几何校正与辐射归一化问题:RGB波段需经2.5×缩放及阈值截断以模拟真实色彩,但Sentinel-2的12位原始辐射度在转换中可能引入信息损失;此外,将UTM投影精确重投影至WGS-84坐标系时,边缘像素的几何畸变修正增加了计算复杂性与潜在误差,且249k余量级的嵌入生成需平衡吞吐效率与空间精度,这对管线设计提出严苛要求。
常用场景
经典使用场景
Core-S2RGB-249k-FarSLIP数据集的核心价值在于为遥感图像分析领域提供了一套高质量、非标准化的视觉-语义特征表征资源。该数据集汇聚了约25万幅来自Sentinel-2卫星的RGB影像块,每一幅图像均经由FarSLIP模型——一种专为遥感场景微调的CLIP架构——编码为768维的稠密嵌入向量。这些嵌入向量不仅捕捉了地物表面的光谱与纹理特征,更在语义空间中构建出对各类地理景观的深层理解,因此被广泛应用于基于内容的卫星图像检索、跨模态图像-文本匹配以及大范围地理场景的语义聚类与分类任务中。其标准化的GeoSpatial元数据架构与便捷的GeoParquet格式,使得研究者能够高效地开展大规模遥感图像分析与模型评估工作。
实际应用
在工程实践层面,Core-S2RGB-249k-FarSLIP所蕴含的丰富地理空间语义信息,使其成为诸多面向真实世界的智能系统的核心组件。例如,在智慧城市建设中,该数据集可用于构建动态地理对象检测系统,对城市绿地、水体、建筑物等要素进行细粒度识别与变迁追踪;在灾害应急领域,利用其嵌入特征可快速匹配历史同质场景,辅助评估洪涝、火灾等灾后地貌的变化程度。此外,该数据集还可服务于农业监测中的作物类型制图、生态学中的栖息地分类以及国土普查中的土地利用变迁分析,展现出跨行业的广泛应用前景。
衍生相关工作
围绕Core-S2RGB-249k-FarSLIP数据集已衍生出一系列具有影响力的工作。其中,EarthEmbeddingExplorer系统作为代表性成果之一,构建了面向全球卫星图像的跨模态检索平台,验证了该嵌入特征在图像-文本双向检索中的卓越性能,并在ICLR 2026遥感教程轨道上作为oral展示。该数据集所依托的FarSLIP模型与Major-TOM大规模遥感数据集结构本身也成为遥感预训练研究的重要基石,后续研究者陆续提出了基于该嵌入的真实场景样本挖掘、域适应增强等改进方法,进一步拓展了其在密集预测、时空推理等复杂任务上的应用边界,形成了良性的学术创新生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作