kklmmr/s2-100k
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/kklmmr/s2-100k
下载链接
链接失效反馈官方服务:
资源简介:
S2-100K数据集是一个用于训练SatCLIP模型的全球采样多光谱Sentinel-2 L2A图像块数据集。它包含100,000个256×256像素的图像块,每个图像块有12个波段(B01, B02, B03, B04, B05, B06, B07, B08, B8A, B09, B11, B12),数据类型为uint16,并且每个图像块都有对应的经度/纬度坐标。数据集的文件布局包括元数据文件、索引文件和分片存储的图像块文件。每个图像块以GeoTIFF格式存储,具有UTM区域坐标参考系统(CRS)和10米的分辨率。数据集的使用方法包括直接流式加载部分分片、将图像块与坐标配对以及下载整个数据集。数据集的原始来源是Microsoft Azure Blob Storage,本仓库是一个已验证完整的副本。数据集采用MIT许可证,与上游SatCLIP项目一致。
The S2-100K dataset is a re-hosted version of the dataset used to train the SatCLIP model. It consists of 100,000 globally sampled multi-spectral Sentinel-2 L2A image patches, each of size 256×256 pixels with 12 bands (B01, B02, B03, B04, B05, B06, B07, B08, B8A, B09, B11, B12) in uint16 format, along with longitude/latitude coordinates for each patch. The datasets file layout includes metadata files, index files, and sharded image patch files. Each patch is stored in GeoTIFF format with a UTM zone coordinate reference system (CRS) and 10-meter resolution. The dataset provides methods for streaming a few shards directly, pairing patches with their coordinates, and downloading the entire dataset. The original dataset was hosted on Microsoft Azure Blob Storage, and this repository is a verified-complete copy. The dataset is licensed under MIT, matching the upstream SatCLIP project.
提供机构:
kklmmr
搜集汇总
数据集介绍

构建方式
S2-100K数据集旨在服务于遥感领域的自监督学习与地理定位任务,其构建基于欧空局哥白尼计划中Sentinel-2 L2A级别多光谱影像。数据采样策略为先在全球范围内均匀选取100,000个地理位置点,随后在每个点位截取256×256像素的多光谱图像块,每个图像块包含除第10波段外的12个光谱波段,并以uint16整型数值存储原始反射率。数据存储采用分片归档形式,将全部图像打包为100个tar文件,每个文件包含1000个相邻图块,并额外提供一份完整合并的78 GB单片tar文件,确保下载过程具备可中断恢复与部分加载的灵活性。此外,数据集同时提供parquet格式元数据表格,记录每个图像块的文件名、经度、纬度、图块索引及所属分片编号。
特点
该数据集具备若干突出特性。首先,其100,000个样本覆盖全球广泛地理空间,具有高度空间多样性与代表性。其次,每个图像块保留完整的12波段多光谱信息,空间分辨率为10米,可支持诸如场景分类、特征提取及地理定位等多种下游任务。再次,数据集提供精确的经纬度坐标,使其天然适用于地理导向的对比学习范式,如SatCLIP框架所要求的经纬度-图像配对训练。最后,数据格式采用GeoTIFF标准,包含坐标参考系(CRS)信息,便于与地理信息系统无缝集成。整体而言,S2-100K在遥感与地理智能交叉领域具有重要学术与应用价值。
使用方法
用户可通过Hugging Face Hub便捷访问本数据集。使用huggingface_hub库的snapshot_download函数可一键下载完整数据集至本地目录。若需按需加载,可通过hf_hub_download函数仅下载特定tar分片,再利用tarfile与rasterio等库在内存中读取GeoTIFF格式图像块,解析12波段光谱矩阵及其地理空间元数据。元数据文件metadata.parquet可直接以pandas库读取,用于检索地理位置信息及影像索引配对。需注意,由于多波段uint16格式的特殊性,标准图像解码库如Pillow无法直接处理,建议使用rasterio或tifffile作为首选读写工具。该数据集的灵活分片与元数据设计,显著降低了大尺度遥感影像数据的访问与使用门槛。
背景与挑战
背景概述
S2-100K数据集由Klemmer等人在2023年于《SatCLIP: Global, General-Purpose Location Embeddings with Satellite Imagery》研究中创建,旨在支持基于卫星影像的通用位置嵌入学习。该数据集由微软研究院主导,从哥白尼哨兵-2号L2A级产品中全球采样了10万幅256×256像素的多光谱影像块,涵盖12个光谱波段(10米分辨率),并附带精确的地理坐标。其核心研究问题在于如何通过大规模、多模态、地理对齐的遥感数据,训练出能够感知全球空间上下文的视觉-位置联合表示模型,从而推动遥感与地理空间智能的交叉发展。S2-100K的发布弥补了现有开源遥感基准在规模、光谱完整性与地理多样性上的不足,为后续的对比学习、自监督预训练以及大规模位置识别研究提供了标准化的数据底座,对卫星图像分析、环境监测及地理计算领域产生了深远影响。
当前挑战
该数据集在领域问题与构建过程中面临多重挑战。首先,遥感影像的语义理解高度依赖于地理上下文,已有数据集通常缺乏大规模、全球分布的精细位置标注,限制了模型对空间不变性特征的学习能力。S2-100K通过提供坐标-影像配对解决了这一难题,但其12波段uint16格式和UTM投影增加了数据加载与处理的复杂度,常见图像处理库无法直接读取,亟需专用工具(如rasterio)支持。其次,构建过程中原始数据托管于微软Azure Blob,公开镜像曾出现缺失补丁的问题,确保10万张影像100%完整重建成为关键工程挑战;此外,78GB单文件不利于断点续传与部分加载,需通过分片为100个tar包(每片1000张)以提升访问效率,同时在保留完整压缩包的前提下维持分发灵活性,平衡了存储、传输与易用性间的矛盾。
常用场景
经典使用场景
S2-100K数据集作为全球遥感影像的标准化基准,在卫星图像分类任务中扮演着不可或缺的角色。通过提供100,000张均匀采样的Sentinel-2多光谱图像块(256×256像素,12波段,10米分辨率),研究人员能够训练和评估针对土地覆盖识别、植被监测以及水体检测等任务的深度学习模型。该数据集的独特之处在于其全球空间采样策略,确保了地理多样性和光谱特征的代表性,从而有效避免了模型对特定区域或季节的过拟合。这种设计使得S2-100K成为验证自监督学习、迁移学习以及特征提取方法在遥感领域适用性的理想测试平台。
解决学术问题
S2-100K数据集系统地解决了遥感社区中长期存在的数据瓶颈问题,即缺乏大规模、高质量、全球分布的多光谱卫星图像基准。它使得研究者能够摆脱以往依赖局部尺度或单一传感器数据的局限,在统一框架下从地理空间位置与光谱信息中挖掘普适性规律。该数据集推动了地理空间表示学习领域的范式变革,特别是支撑了对比学习方法(如SatCLIP)的诞生,实现了从原始影像到地理位置嵌入的跨模态对齐。此外,它还为评估模型在全球尺度下的泛化能力提供了量化标准,深刻影响了遥感图像无监督预训练和位置感知特征学习的学术进展。
衍生相关工作
S2-100K数据集的发布催生了一系列具有里程碑意义的经典工作。最核心的衍生工作是SatCLIP模型,它开创性地将对比语言-图像预训练(CLIP)框架引入遥感领域,通过大规模地理位置与卫星图像的匹配学习,获得了具备全局理解能力的通用位置嵌入。后续研究在此基础上进行了多样化扩展,包括利用S2-100K训练位置编码器以改进地理预测任务、开发针对多时相遥感数据的自监督框架,以及探索在数据稀疏地区进行知识蒸馏的方法。此外,该数据集还作为标准基准,支持了诸如GeoCLIP、RemoteCLIP等模型的性能对比,成为评估远程感知基础模型质量的关键参照,彰显了其在推动学术社区可持续发展中的重要价值。
以上内容由遇见数据集搜集并总结生成



