O3earth
收藏Hugging Face2026-04-02 更新2026-04-03 收录
下载链接:
https://huggingface.co/datasets/2imi9/O3earth
下载链接
链接失效反馈官方服务:
资源简介:
O3 EartH 数据集是一个用于可再生能源基础设施评估的地理空间站点适宜性数据集,包含 OlmoEarth 基础模型嵌入。数据集由 24,866 个标签样本(经纬度、能源类型、标签、国家)和 321,614 个全球能源厂位置组成,覆盖 100 多个国家和四种能源类型(太阳能、风能、水能、地热能)。数据来源于 Sentinel-2 L2A 图像(12 波段,10 米分辨率),通过冻结的 OlmoEarth BASE 编码器(97M 参数)处理,生成 768 维景观指纹。数据集还包括训练好的 XGBoost 分类器和标准化器。性能评估显示,OlmoEarth 嵌入在空间交叉验证(留一国家出)下达到 AUC 0.867。数据集适用于地理空间分类任务和可再生能源站点适宜性评估。
创建时间:
2026-03-24
原始信息汇总
O3 EartH 数据集概述
数据集简介
O3 EartH 是一个用于可再生能源基础设施评估的地理空间选址适宜性数据集,包含基于 OlmoEarth 基础模型生成的嵌入特征。
关键结果
- OlmoEarth 嵌入特征在空间交叉验证(留一国家法)下达到 AUC 0.867。
文件构成
| 文件 | 描述 |
|---|---|
| suitability_dataset_v2_shuffled.parquet | 24,866 个带标签样本(包含经纬度、能源类型、标签、国家) |
| all_energy_locations.parquet | 321,614 个来自 EIA 和 OSM 的全球能源设施位置 |
| embeddings/embeddings.npy | 8,000 个 768 维的 OlmoEarth 嵌入特征 |
| embeddings/embeddings_meta.csv | 每个嵌入特征的元数据 |
| models/xgb_*.json | 针对每种能源类型训练的 XGBoost 分类器 |
| models/scaler_*.pkl | 针对每种能源类型的 StandardScaler |
嵌入特征提取方法
- 源影像:Microsoft Planetary Computer 的 Sentinel-2 L2A 数据(12 个波段,10 米分辨率)。
- 模型:使用冻结的 allenai/olmoearth_pretrain (OLMOEARTH_V1_BASE) 基础编码器(9700 万参数)。
- 处理流程:将影像块输入编码器,通过平均池化生成每个位置的 768 维景观特征向量。
- 影像块大小:128x128 像素(约 1.28 公里)。
- 时间范围:2022-2023 年,最大云量覆盖率为 30%。
数据覆盖范围
- 地理范围:覆盖 6 大洲的 100 多个国家。
- 能源类型:包含太阳能(约 10K)、风能(约 10K)、水力(约 4K)、地热能(866)四种类型。
- 样本平衡:包含平衡的阳性样本(现有设施位置)和阴性样本(随机位置)。
性能结果
| 方法 | AUC |
|---|---|
| 仅使用地理坐标(经纬度) | 0.579 |
| OlmoEarth 嵌入特征 | 0.902 |
| 空间交叉验证(留一国家法) | 0.867 |
引用信息
Qi, Ziming. "O3 EartH: Geospatial Site Suitability Assessment Using Foundation Model Embeddings." 2026. Northeastern University.
相关链接
- GitHub 仓库:https://github.com/2imi9/O3earth
- OlmoEarth 项目:https://github.com/allenai/olmoearth_pretrain
许可信息
- 许可证:MIT
标签与类别
- 标签:renewable-energy, geospatial, satellite-imagery, site-suitability, olmoearth, sentinel-2, foundation-model, embeddings
- 任务类别:tabular-classification
- 语言:en
- 数据规模:10K<n<100K
搜集汇总
数据集介绍

构建方式
在可再生能源基础设施评估领域,O3earth数据集通过整合多源地理空间数据与前沿基础模型嵌入技术构建而成。其核心流程涉及从微软行星计算机平台获取Sentinel-2 L2A卫星影像,筛选2022至2023年间云覆盖率低于30%的清晰图像,并裁剪为128x128像素的图块,对应约1.28公里地面范围。这些图块随后输入冻结的OlmoEarth BASE编码器,该模型拥有9700万参数,能够提取12个光谱波段的深层特征;通过均值池化操作,每个地理位置生成一个768维的景观指纹嵌入,最终形成包含24,866个标注样本的结构化数据集。
特点
该数据集显著特点在于其全球覆盖广度与多能源类型包容性,囊括六大洲超过100个国家的可再生能源站点信息,涵盖太阳能、风能、水能与地热能四种能源类型,其中太阳能与风能样本各约一万条,水能样本四千条,地热能样本八百余条。数据集采用正负样本平衡设计,既包含现有能源站点的真实位置,也纳入随机选取的地理位置作为负样本,确保模型训练的稳健性。尤为突出的是,数据集提供了经过预计算的OlmoEarth基础模型嵌入向量,这些嵌入在留一国出空间交叉验证中达到0.867的AUC性能,显著超越了仅依赖经纬度地理特征的基线方法。
使用方法
使用该数据集时,研究人员可直接加载parquet格式的标注数据与npy格式的嵌入向量,快速构建可再生能源站点适宜性评估模型。数据集配套提供了针对每种能源类型训练的XGBoost分类器与标准化处理器,用户可基于预训练嵌入进行迁移学习或微调,亦可将嵌入向量与原始地理坐标、国家信息等元数据结合,开发定制化机器学习流程。该数据集适用于地理空间分析、可再生能源规划、环境影响评估等多学科交叉研究,其标准化格式与丰富元数据支持端到端的模型训练、验证与可视化分析。
背景与挑战
背景概述
随着全球能源转型的加速,可再生能源基础设施的选址评估成为地理空间科学和能源规划领域的关键研究议题。O3earth数据集由美国东北大学的研究团队于2026年创建,旨在利用先进的基础模型嵌入技术,系统评估太阳能、风能、水能和地热能等可再生能源的场地适宜性。该数据集整合了Sentinel-2卫星影像与OlmoEarth基础模型的编码特征,覆盖全球六大洲超过100个国家,提供了超过24,000个标注样本。其核心研究问题在于如何通过深度学习提取的地理景观指纹,突破传统基于经纬度或人工特征的选址方法,显著提升跨区域空间预测的准确性与泛化能力,为可持续能源部署提供数据驱动的科学依据。
当前挑战
在可再生能源选址领域,传统方法依赖有限的地理变量或专家经验,难以捕捉复杂的地形、气候与生态交互特征,导致模型在未见区域泛化性能受限。O3earth数据集构建过程中面临多重挑战:首先,需处理全球尺度下多源异构数据,包括协调不同国家的能源站点数据与卫星影像的时空一致性;其次,Sentinel-2影像受云层覆盖和季节变化影响,要求严格的云掩膜与时间筛选以保障数据质量;此外,基础模型嵌入的提取涉及大规模计算,需平衡高分辨率影像处理与模型推理效率。这些挑战共同指向地理空间人工智能中数据标准化、可扩展性与跨域适应性等核心问题。
常用场景
经典使用场景
在可再生能源基础设施规划领域,O3earth数据集凭借其融合地理空间坐标与OlmoEarth基础模型嵌入的特征,为太阳能、风能、水能和地热能站点的适宜性评估提供了标准化基准。研究者通常利用该数据集训练机器学习模型,如XGBoost分类器,以预测特定地理位置是否适合建设各类能源设施,其核心在于通过Sentinel-2卫星影像提取的景观指纹,量化地形、植被及环境特征对能源开发的潜在影响。
解决学术问题
该数据集有效应对了地理空间分析中样本稀缺与泛化能力不足的学术挑战。传统方法仅依赖经纬度坐标,难以捕捉复杂的地表异质性,而OlmoEarth嵌入通过深度表征学习,将多光谱遥感信息压缩为768维向量,显著提升了模型在跨区域场景下的判别性能。其采用的留一国家交叉验证策略,证实了嵌入特征在未见地理区域仍保持0.867的AUC值,为空间外推问题提供了可靠解决方案。
衍生相关工作
基于O3earth数据集衍生的研究多集中于多模态地理智能模型的开发。部分工作探索了将OlmoEarth嵌入与气候数据、社会经济指标融合,以构建更全面的能源潜力评估框架;另有研究针对嵌入向量的可解释性展开分析,通过特征归因方法揭示影响站点适宜性的关键遥感波段。这些进展进一步推动了基础模型在可持续发展领域的迁移应用,为全球能源转型提供了数据驱动的科学依据。
以上内容由遇见数据集搜集并总结生成



