olmoearth-paper-embeddings

Name: olmoearth-paper-embeddings
Creator: Allen Institute for AI
Published: 2026-05-15 13:45:17
License: 暂无描述

Hugging Face2026-05-15 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/allenai/olmoearth-paper-embeddings

下载链接

链接失效反馈

官方服务：

资源简介：

OlmoEarth论文表2基础模型嵌入数据集是一个专门为地球观测领域设计的大规模预提取嵌入集合，旨在支持下游任务（如KNN分类、线性探针和微调）的性能评估与比较，避免研究人员重复运行模型编码器进行特征提取。数据集包含26个不同的地球观测基础模型在24个下游任务上生成的嵌入向量，这些任务与论文《OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation》中的表2完全对应。数据规模约1.1 TB，以PyTorch的.pt文件格式存储，每个文件包含embeddings（bfloat16张量）和labels（int64张量）键。模型涵盖AnySat、Clay、CopernicusFM、CROMA、DINOv3系列、Galileo系列、Panopticon、Presto、Prithvi v2系列、Satlas、TerraMind、TESSERA以及OlmoEarth自身的变体。下游任务涵盖多种地球观测模态和应用，包括Sentinel-1、Sentinel-2、Landsat-8以及多模态时间序列数据，任务类型包括分类（如m_bigearthnet、m_so2sat等）和分割（如m_cashew_plant、PASTIS等），评估方法包括K最近邻和线性探针。数据集还提供评估设置文件和已知注意事项文档，采用CC BY 4.0许可证。

The OlmoEarth Paper Table 2 Foundation Model Embeddings Dataset is a large-scale pre-extracted embedding collection specifically designed for the Earth observation domain. It aims to support performance evaluation and comparison of downstream tasks (such as KNN classification, linear probing, and fine-tuning), avoiding the need for researchers to repeatedly run model encoders for feature extraction. The dataset contains embeddings generated by 26 different Earth observation foundation models on 24 downstream tasks, which correspond exactly to Table 2 in the paper OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation. The total disk usage is approximately 1.1 TB, stored in PyTorch .pt file format, with each file containing a dictionary with two keys: embeddings (bfloat16 tensor) and labels (int64 tensor). The models include AnySat, Clay, CopernicusFM, CROMA, DINOv3 series, Galileo series, Panopticon, Presto, Prithvi v2 series, Satlas, TerraMind, TESSERA, and OlmoEarths own variants. The downstream tasks cover various Earth observation modalities and applications, including Sentinel-1, Sentinel-2, Landsat-8, and multimodal time series data, with task types including classification (e.g., m_bigearthnet, m_so2sat) and segmentation (e.g., m_cashew_plant, PASTIS), and evaluation methods including K-nearest neighbors and linear probing. The dataset also provides evaluation setup files and known issues documentation, and is licensed under CC BY 4.0.

提供机构：

Allen Institute for AI

创建时间：

2026-05-15

搜集汇总

数据集介绍

构建方式

该数据集是《OlmoEarth: Stable Latent Image Modeling for Multimodal Earth Observation》论文中Table 2的支撑性资源，系统性地收录了来自26个地球观测基础模型的预提取嵌入特征，覆盖24项下游任务。每个（模型，任务）组合均采用论文最优超参数，对训练集、验证集和测试集进行特征编码，并将结果以单个.pt文件形式存储，从而避免后续K近邻、线性探测或微调实验中的重复特征提取过程。

特点

数据集规模宏大，总存储容量约1.1 TB。嵌入特征以bfloat16精度存储，可在加载时无损转换为float32。分类任务嵌入维度为(N, D)，分割任务则保留空间结构(N, H, W, D)，标签的分辨率与原始图像一致。AnySat模型因其分割任务输出逐像素特征尤为突出，占用约575 GB。每个.pt文件均由torch.save生成，包含嵌入张量与标签张量，便于高效加载与处理。

使用方法

用户可通过torch.load直接读取.pt字典，调用float()方法将bfloat16转换为fp32即可用于下游任务。数据集附有eval_settings目录，内含每个（模型，任务）组合在论文最优情况下的超参数记录，如池化类型、探测学习率与归一化模式。提供的load_example.py脚本展示了加载数据并运行K近邻以复现论文Table 2指标的完整流程，线性探测任务则需依据指定的学习率、批量大小与验证策略进行训练。

背景与挑战

背景概述

OlmoEarth 数据集由 AI2 团队于 2025 年创建，旨在填补地球观测领域基础模型标准化评估的空白。随着遥感与卫星影像分析技术的迅猛发展，多种基于视觉 Transformer 的预训练模型（如 DINOv3、Prithvi v2、Galileo 等）相继涌现，然而缺乏统一的基准使得模型间的比较与复现变得困难。该数据集通过提取 26 个代表性基础模型在 24 项下游任务（涵盖分类、分割与多模态时间序列分析）上的预计算嵌入向量，为系统化评估提供了标准化平台。其核心研究问题聚焦于：如何在不同遥感模态（Sentinel-1/2、Landsat 等）与任务中公平、高效地衡量基础模型的泛化能力。OlmoEarth 的发布显著降低了大规模对比实验的计算门槛，推动了地球观测领域模型选择的科学化进程。

当前挑战

该数据集面临的核心挑战在于多模态基础模型评估中的公平性与可复现性。首先，地球观测任务涉及多种传感器及数据模态（如光学、雷达、高光谱），模型在不同模态下的表现差异巨大，且同一模型在不同波段选择（如 Prithvi v2 的波段映射修正）下结果可能产生漂移。其次，模型架构的异构性导致嵌入维度（从 128 到 4096）与空间网格分辨率不一致，使得下游任务的线性探测与 KNN 分类需针对每对（模型、任务）微调超参数，而超参数选择的微小差异即可引发结果波动。此外，构建过程中遭遇了多项工程挑战：AnySat 的分割任务产生逐像素特征，数据量达 575 GB，远超其他模型；部分模型的时间序列处理（如 AnySat 的单像素输入）因后续代码重构而崩溃，需对预处理流程进行回溯修复。最终，为确保约 1.1 TB 的嵌入数据复现原文结果至 90% 以上单元误差在 ±0.5–1 个点内，团队不得不追溯并记录每处差异背后的历史代码变更，形成了复杂的验证链条。

常用场景

经典使用场景

在遥感与地球观测领域，该数据集为评估和比较不同基础模型在下游任务中的表现提供了标准化基准。它包含了26个先进的地球观测基础模型在24个多样化任务上的预提取特征嵌入，覆盖了从单标签分类到多标签分类、从语义分割到时间序列分析等多种任务类型。研究者无需重复进行耗时的特征提取，即可直接利用这些嵌入进行K近邻分类、线性探针训练或微调实验，极大地简化了模型评估流程。这一设计使得该数据集成为推动遥感基础模型性能比较与复现研究的核心资源。

衍生相关工作

该数据集的发布催生了多项重要的衍生研究工作。首先，它直接源自OlmoEarth论文中的系统评估框架，该框架为后续研究提供了可复现的基线。其次，围绕该数据集衍生了更高效的特征嵌入与检索方法，例如研究者基于预提取的KNN任务嵌入开发了快速近邻分类器，显著提升分类效率。此外，数据集中包含的AnySat、Galileo等模型特征，促使研究者进一步探索在像素级分割任务中高效利用大模型表征的策略。最后，该数据集催生的标准化评估流程已被广泛应用于后续的地球观测基础模型开发工作，成为衡量模型进步的重要工具。

数据集最近研究