Major-TOM/Core-S2L2A-249k-Clay-v1_5
收藏Hugging Face2026-05-04 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/Major-TOM/Core-S2L2A-249k-Clay-v1_5
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含预计算的图像嵌入,这些嵌入是基于Core-S2L2A-249k卫星影像子集,使用Clay v1.5基础模型生成的。Clay是一个开源的地球观测基础模型,采用Masked Autoencoder (MAE)架构,具有动态补丁嵌入功能。数据集以GeoParquet文件格式分发,包含1024维的嵌入向量以及相关的空间元数据。每个嵌入向量对应于一个Sentinel-2 L2A影像芯片,经过预处理和模型推理后生成。数据集适用于跨模态检索和其他地球观测应用。
This dataset contains pre-computed image embeddings for the Core-S2L2A-249k satellite imagery subset, generated using the Clay v1.5 foundation model. Clay is an open-source foundation model for Earth observation, using a Masked Autoencoder (MAE) architecture with dynamic patch embeddings. The dataset is distributed as a single GeoParquet file, containing 1024-dimensional embedding vectors along with spatial metadata. Each embedding vector corresponds to a Sentinel-2 L2A image chip, generated through preprocessing and model inference. The dataset is suitable for cross-modal retrieval and other Earth observation applications.
提供机构:
Major-TOM
搜集汇总
数据集介绍

构建方式
Core-S2L2A-249k-Clay-v1_5数据集是建立在MajorTOM Core-S2L2A-249k卫星影像子集之上的预计算嵌入特征集合。其构建流程始于对约24.9万幅Sentinel-2 L2A影像芯片(尺寸384×384像素)的获取,随后利用Clay v1.5基础模型进行特征提取。在预处理阶段,各影像芯片依据Clay模型预设的Sentinel-2波段均值和标准差进行归一化处理。接着,采用Clay编码器(禁用掩码机制)从每个芯片中提取CLS标记嵌入向量,最终为每一幅影像生成一个1024维的嵌入向量,并辅以空间元数据。整个生成过程基于EarthEmbeddingExplorer代码库中的generate_embeddings.py脚本实现,确保了操作的标准化与可复现性。
特点
该数据集的核心特色在于其存储格式与内容维度。数据以单一的GeoParquet文件形式分发,不仅包含了足有1024维的浮点型嵌入向量,还整合了丰富的空间与影像元信息,如唯一标识符、采集时间、产品编号、网格编码、几何边界(WGS84多边形)、中心经纬度、UTM投影描述及像素包围盒等。这种多维度的结构设计,使其既适用于传统的表格式数据分析,又能无缝兼容地理空间计算框架。尤为重要的是,这些嵌入向量来源于Clay v1.5这一基于ViT-Large MAE架构的地球观测基础模型,该模型动态嵌入对传感器波长的依赖,能够有效捕捉来自Sentinel-2多光谱影像的深层语义特征,从而为后续的跨模态检索与大规模遥感图像分析提供了坚实的表征基础。
使用方法
使用Core-S2L2A-249k-Clay-v1_5数据集极为便捷,用户可通过Pandas或GeoPandas直接加载Parquet文件以获取嵌入向量与元数据。例如,利用pd.read_parquet方法读取文件后,可轻松将嵌入列提取为列表形式的1024维向量集。这些预计算特征可直接用于下游任务,如相似性搜索、聚类分析与影像检索。为进一步挖掘其潜力,建议结合EarthEmbeddingExplorer这一跨模态检索Web应用,实现基于文本或图像对大规模卫星影像的高效查询。此外,所有数据均遵循CC-BY-SA-4.0许可协议,确保了其在学术与商业场景中的兼容性与可再分发能力。
背景与挑战
背景概述
Core-S2L2A-249k-Clay-v1.5数据集由欧洲空间局MajorTOM团队与Clay基金会联合创建,于2026年面向地球观测与遥感领域发布。该数据集的核心研究问题在于为大规模卫星影像提供预计算的、高维度的语义嵌入表示,以促进跨模态检索、地物分类与时空分析等下游任务。通过将Clay v1.5基础模型(基于ViT-Large掩码自编码器架构)应用于约24.9万幅Sentinel-2 L2A多光谱影像切片,生成了1024维的全局CLS令牌嵌入向量,并辅以空间元数据。该数据集的发布显著降低了遥感领域构建高质量嵌入表示的门槛,推动了地球观测基础模型的可迁移性与复用效率,对地理空间人工智能研究具有重要影响。
当前挑战
该数据集面临的挑战包括三方面。其一,领域问题层面:遥感影像存在多传感器、多光谱、多时相特性,传统的像素级处理方法难以捕捉全局地理语义,而该数据集通过嵌入向量将复杂影像压缩为统一表示,解决了跨模态对齐与特征泛化的难题。其二,构建过程中,需要处理源自MajorTOM数据集的249k个384×384像素切片的归一化标准化,确保不同时间、区域和大气条件下的影像输入符合Clay模型的统计分布;同时,从GeoParquet格式中高效提取并存储嵌入向量与几何元数据,避免大规模数据处理的I/O瓶颈。其三,质量控制层面,依赖SHA-256唯一标识符保证每条嵌入的可追溯性,但在全球尺度下,仍需验证嵌入对云覆盖、季节变化和地理偏移的鲁棒性。
常用场景
经典使用场景
Core-S2L2A-249k-Clay-v1.5数据集的核心用途在于为遥感影像分析提供预计算的高维特征表示。借助Clay v1.5基础模型——一种基于掩码自编码器(MAE)架构的视觉Transformer,该数据集将约25万张Sentinel-2 L2A卫星影像芯片转化为1024维的CLS令牌嵌入向量。这些嵌入向量捕获了多光谱图像中蕴含的空间与光谱信息,为后续的迁移学习、分类、聚类及跨模态检索任务奠定了高效特征基础。研究者和工程师可直接加载该数据集作为下游模型的输入,避免重复计算开销,显著加速地球观测领域的模型开发与实验迭代。
实际应用
在实际应用中,该数据集为地球观测相关产业提供了强有力的基础设施支撑。城市管理部门可利用嵌入向量快速检索大范围历史影像,识别建成区扩展或绿地变化模式。农业监测机构能够结合高维嵌入特征进行作物类型分类与长势追踪,无需从头训练深度网络。此外,灾害应急响应中,该数据集支持的跨模态检索功能可以迅速从海量卫星图库中匹配与灾前场景相似的图像,辅助灾情评估与救援路线规划。该数据集还便于集成至GIS软件与Web应用中,例如配合EarthEmbeddingExplorer平台,实现基于自然语言描述或示例图像的全球卫星影像检索,提升了遥感数据在智慧城市、精准农业及环境监控等领域的落地效率。
衍生相关工作
围绕Core-S2L2A-249k-Clay-v1.5数据集,研究者已衍生出多项具有影响力的经典工作。EarthEmbeddingExplorer作为代表性成果,构建了面向地理空间嵌入的跨模态检索Web应用,利用该数据集的预计算向量实现了基于文本或图像查询的全球卫星影像搜索,其论文被ICLR 2026 Workshop收录,展示了嵌入向量在用户交互式探索中的广阔前景。此外,Clay v1.5模型本身推动了地球观测基础模型的发展,其MAE架构结合动态补丁嵌入的创新设计被后续多项研究借鉴,用于处理Landsat与NAIP等多传感器数据。在本数据集基础上,社区还探索了地理空间嵌入在场景分类、土地覆盖制图和时序变化检测等任务中的迁移学习效果,逐步形成了以大规模嵌入库为枢纽的遥感研究范式,促进了开源生态中模型与数据的协同进步。
以上内容由遇见数据集搜集并总结生成



