Major-TOM/Core-S2L2A-249k-OlmoEarth-Base
收藏Hugging Face2026-05-04 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/Major-TOM/Core-S2L2A-249k-OlmoEarth-Base
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了针对Core-S2L2A-249k卫星影像子集的预计算图像嵌入,这些嵌入是通过OlmoEarth-Base基础模型生成的。OlmoEarth是一个地球系统基础模型,专门用于处理Sentinel-2 L2A和6个派生地理空间地图的数据。数据集采用GeoParquet文件格式分发,包含了768维的特征向量、时间戳、产品标识符、地理空间元数据等信息。数据集适用于跨模态检索,可以与EarthEmbeddingExplorer网络应用程序配合使用。
This dataset contains pre-computed image embeddings for the Core-S2L2A-249k satellite imagery subset, generated using the OlmoEarth-Base foundation model. OlmoEarth is an Earth-system foundation model trained on Sentinel-2 L2A and 6 derived geospatial maps. The dataset is distributed as a single GeoParquet file, including 768-dimensional feature vectors, timestamps, product identifiers, geospatial metadata, etc. It is suitable for cross-modal retrieval and can be paired with the EarthEmbeddingExplorer web application.
提供机构:
Major-TOM
搜集汇总
数据集介绍

构建方式
Core-S2L2A-249k-OlmoEarth-Base数据集是基于MajorTOM项目中的Core-S2L2A-249k卫星影像子集构建的。构建流程始于从源Parquet文件中读取每幅384×384像素的Sentinel-2 L2A影像块,提取全部12个光谱波段,并按OlmoEarth模型的输入规范重新排序,将MajorTOM格式的波段顺序调整为[B02, B03, B04, B08, B05, B06, B07, B8A, B11, B12, B01, B09]。随后,利用OlmoEarth预训练归一化器对波段数据进行标准化处理,将12波段张量馈入OlmoEarth-Base编码器进行特征提取。通过对所有未掩码空间标记进行均值池化,得到768维的图像嵌入向量。生成过程未施加L2归一化,以便在检索时按需处理。此外,原始UTM覆盖范围被重投影至EPSG:4326坐标系,衍生出几何对象、中心经纬度字段,同时保留了产品标识、网格单元、时间戳等丰富元数据。构建脚本来源于EarthEmbeddingExplorer开源仓库中的generate_embeddings.py。
特点
该数据集的核心特征在于以紧凑的嵌入形式封装了多光谱卫星影像的深层语义信息,实现了地理空间数据的高效表征。其嵌入维度为768,捕捉了来自12个Sentinel-2波段的丰富光谱与空间模式。通过采用OlmoEarth预训练基础模型,该数据集继承了强大的多模态视觉变换器架构优势,能够灵活应对多样化的地理空间分析任务。数据以单一GeoParquet文件格式存储,集成了详细的地理空间元数据,包括WGS-84覆盖多边形、UTM投影字符串、像素边界框以及原始Parquet文件定位信息,极大便利了空间查询与集成。唯一标识符通过SHA-256哈希生成,确保了每条嵌入记录的可追溯性与完整性,为大规模遥感影像检索、分类与相似性分析提供了高质量的基础数据资源。
使用方法
使用Core-S2L2A-249k-OlmoEarth-Base数据集非常便捷。研究人员可直接通过Pandas或GeoPandas库加载GeoParquet文件,例如使用pd.read_parquet('OlmoEarth_Base_crop_384x384.parquet')读取数据框,并通过df['embedding'].tolist()提取所有768维嵌入向量的列表。这些嵌入向量可直接用于下游任务,如基于相似度的跨模态检索、影像聚类或作为分类模型的输入特征。当进行跨模态检索时,可搭配EarthEmbeddingExplorer网页应用程序实现直观的地理空间影像探索。若需计算余弦相似度等度量,建议在检索阶段对嵌入向量进行L2归一化处理。数据集中提供的中心经纬度、几何多边形及时间戳等元数据,使研究者能够灵活地进行空间过滤、时间序列分析或与外部地理数据集进行联合查询,从而发挥该嵌入数据集在遥感与地理信息科学领域的最大价值。
背景与挑战
背景概述
Core-S2L2A-249k-OlmoEarth-Base数据集由艾伦人工智能研究所与欧洲空间局合作构建,发布于2024年,旨在为地球观测领域提供高质量的卫星影像嵌入表示。该数据集基于Major-TOM计划下的Core-S2L2A-249k子集,利用OlmoEarth-Base基础模型对Sentinel-2 L2A卫星影像的12个光谱波段进行特征提取,生成768维的图像嵌入向量。其核心研究问题在于如何利用多模态视觉Transformer架构高效捕获多光谱卫星影像中的光谱与空间模式,从而推动地理空间信息检索、土地覆盖分类与环境监测等任务的智能化发展。作为连接原始卫星影像与下游模型的关键桥梁,该数据集为遥感领域的嵌入学习提供了标准化基准,对促进地球系统智能分析具有重要影响力。
当前挑战
该数据集所解决的领域问题包括:遥感影像的跨模态检索与语义理解面临多光谱数据高维、异质与时空异构的挑战,传统方法难以有效融合12个波段的丰富信息;同时,大规模卫星影像的存储与计算资源需求极高,限制了模型的实用部署。在构建过程中,数据预处理需将Major-TOM格式的波段顺序重排为OlmoEarth的预期格式,并进行标准化,涉及复杂的张量操作与数据一致性验证;此外,需将原始UTM投影坐标系统一转换为EPSG:4326地理坐标系,确保几何元数据的空间精度;生成约25万条嵌入向量的计算任务对算力与存储效率提出严苛要求,脚本需处理分布式并行编码与内存管理难题。
常用场景
经典使用场景
在遥感与地球观测领域,数据的高效表征是下游任务性能的关键瓶颈。Core-S2L2A-249k-OlmoEarth-Base数据集为Sentinel-2多光谱影像提供了预计算的768维嵌入向量,架起了原始像素级数据与高级语义分析之间的桥梁。其最经典的使用场景是基于嵌入向量的快速检索与匹配,例如通过地理空间相似性搜索从海量影像库中定位特定地物或时相,避免了重复进行昂贵的前向推理,显著提升了大规模遥感数据分析的效率。
实际应用
在实际应用中,该数据集为地理空间信息挖掘与智能解译赋能了一系列高效工具。结合EarthEmbeddingExplorer等交互式探索平台,用户可通过文本或图像在嵌入空间中进行语义搜索,快速定位特定场景,如城市扩张监测、农业地块识别或灾后变化检测。此外,其Geoparquet格式与元数据(时间戳、几何边界等)的保留,使其可直接集成至云端GIS流水线,支撑近实时的环境监测与资源管理决策,大幅降低了传统遥感模型部署的计算开销。
衍生相关工作
该数据集的诞生促进了多项重要学术工作的衍生。首先,它验证并扩展了OlmoEarth基础模型在Sentinel-2影像上的表征能力,为后续对比学习与自监督蒸馏提供了高质量特征库。其次,基于其嵌入向量的检索框架催生了地理空间闭环反馈机制的研究,例如利用检索到的近邻样本动态优化下游分类器。此外,该数据集还推动了多时相序列嵌入在时序分析中的应用探索,并成为评估跨区域遥感基础模型泛化性能的基准测试集之一。
以上内容由遇见数据集搜集并总结生成



