five

Major-TOM/Core-S2L2A-249k

收藏
Hugging Face2026-05-04 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/Major-TOM/Core-S2L2A-249k
下载链接
链接失效反馈
官方服务:
资源简介:
Core-S2L2A-249k 是 Major-TOM Core-S2L2A 数据集的精选子集,包含全球均匀采样的 248,719 个 Sentinel-2 L2A 图像块。该数据集作为预计算嵌入数据集的源图像,用于 EarthEmbeddingExplorer 跨模态检索网络应用。数据集包含 384 × 384 像素的图像块,具有 12 个光谱波段(B01, B02, B03, B04, B05, B06, B07, B08, B8A, B09, B11, B12),空间分辨率分别为 10 米、20 米和 60 米(取决于波段)。数据采用 GeoParquet 格式存储,并遵循 CC-BY-SA-4.0 许可。

Core-S2L2A-249k is a curated subset of the Major-TOM Core-S2L2A dataset, containing 248,719 Sentinel-2 L2A image patches uniformly sampled across the globe. It serves as the source imagery for pre-computed embedding datasets used by the EarthEmbeddingExplorer cross-modal retrieval web application. The dataset includes 384 × 384 pixel image patches with 12 spectral bands (B01, B02, B03, B04, B05, B06, B07, B08, B8A, B09, B11, B12) and spatial resolutions of 10 m, 20 m, and 60 m (depending on the band). The data is stored in GeoParquet format and is licensed under CC-BY-SA-4.0.
提供机构:
Major-TOM
搜集汇总
数据集介绍
main_image_url
构建方式
Core-S2L2A-249k是从Major-TOM Core-S2L2A全量存档中经均匀网格采样策略精心筛选而成。具体而言,在全球范围内叠加规则网格,对每1/9的采样网格单元提取中心边界框作为裁剪区域,并以384×384像素的固定尺寸进行图像块提取。这一流程在确保空间多样性的同时,有效控制了数据集规模,使其适用于大规模的嵌入生成与交互式网络检索任务。
特点
该数据集包含248,719个Sentinel-2 L2A影像块,覆盖全球范围,具备12个光谱波段(B01至B12),空间分辨率涵盖10米、20米和60米。数据以GeoParquet格式存储,每个影像块为384×384像素的三维数组,支持多光谱与RGB两种输入模式。此外,数据集提供了基于SigLIP、DINOv2等多种基础模型预计算的嵌入向量,便于跨模型对比与下游应用。
使用方法
使用者可通过加载元数据Parquet文件获取地理空间索引与影像路径,随后按需读取分片Parquet文件中的影像块。每个影像块以uint16格式的三维数组形式存储,波段顺序固定。数据集还配套提供了多种预计算嵌入向量,可直接用于文本、图像及地理位置查询的跨模态检索,借助EarthEmbeddingExplorer等工具即可实现交互式探索与分析。
背景与挑战
背景概述
Core-S2L2A-249k是一个于2024年构建、由欧洲空间局Phi-Lab等机构主导的全球均匀采样遥感影像子集,源自Major-TOM Core-S2L2A数据集,包含248,719幅Sentinel-2 L2A卫星影像块。该数据集旨在解决遥感领域大规模跨模态检索与地理空间智能的基础数据瓶颈,通过为多种视觉与地理嵌入模型提供统一的源影像来源,支撑了地球观测领域内多模态表征学习的标准化评估与下游任务迁移。其均匀网格采样策略确保了全球空间多样性与样本代表性,已在EarthEmbeddingExplorer等跨模态检索应用中发挥核心作用,对推动遥感基础模型的可复现比较与交互式地理空间检索具有显著影响力。
当前挑战
该数据集所应对的领域挑战是遥感大数据的规模化表征学习与高效检索——传统遥感数据集往往区域偏倚、样本量有限,难以支撑通用嵌入模型的训练与公平比对。Core-S2L2A-249k通过从百亿级Major-TOM体系中进行1/9网格抽样,兼顾全球覆盖与数据精简,但构建中面临多光谱影像的存储与解析复杂性,需将12波段384×384像素的影像以uint16格式分片归档,并确保与多种预计算嵌入模型(如SigLIP、DINOv2、Clay等)的输入尺寸与波段兼容性。此外,地理空间元数据的统一管理(如UTM投影、几何边界对齐)及跨模型嵌入的公平对比框架设计,亦是数据构建过程中的关键挑战。
常用场景
经典使用场景
在遥感与地球观测领域,Core-S2L2A-249k数据集以其全球均匀采样的248,719个哨兵二号L2A影像块为核心,成为训练和评估多光谱遥感基础模型的经典基准。每个384×384像素的影像块包含12个光谱波段,覆盖从可见光到短波红外的丰富信息,为自监督表征学习、跨模态检索和地理空间嵌入生成提供了高质量、规模适中的训练素材。该数据集尤适用于对比学习框架,如CLIP风格的遥感模型,以及需要全球覆盖且空间多样性的下游任务预训练。
解决学术问题
Core-S2L2A-249k的构建直击了遥感领域长期存在的两大关键瓶颈:其一是缺乏覆盖全球且具有地理代表性的标准化多光谱训练数据集,其二是大规模遥感影像的高效嵌入生成与检索难题。通过均匀网格采样策略,该数据集确保了空间分布的多样性,有效缓解了传统数据集的地理偏差问题。它为对比不同基础模型(如SigLIP、DINOv2、Clay)的嵌入质量提供了统一评估基准,推动了多模态遥感智能的交叉研究。
衍生相关工作
Core-S2L2A-249k衍生了多项影响力深远的经典工作,其中最核心的是多组预计算嵌入数据集,包括基于RGB的SigLIP、FarSLIP、DINOv2嵌入,以及基于多光谱的SatCLIP、Clay v1.5、OLMoEarth-Base嵌入。这些嵌入版本被统一封装为标准GeoParquet格式,并与相同的地理元数据索引对齐,使得不同模型之间的公平对比成为可能。在此基础上诞生的EarthEmbeddingExplorer教程论文(Zheng等,2026)系统展示了跨模态检索的技术路线,被ICLR 2026 ML4RS工作坊收录为口头报告,为后续研究提供了可复现的范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作