five

Core-AlphaEarth-Embeddings

收藏
Hugging Face2025-08-05 更新2025-08-06 收录
下载链接:
https://huggingface.co/datasets/Major-TOM/Core-AlphaEarth-Embeddings
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由Google和Google DeepMind制作的样本数据集,共包含71,426个覆盖的网格单元,每个单元包含1,068x1,068的嵌入向量,每个向量的维度为64。总共有81,470,209,824(810亿)个单独的嵌入向量,覆盖了超过800万平方公里的地理面积。

This is a sample dataset developed by Google and Google DeepMind. It consists of 71,426 covered grid cells, each containing 1,068 × 1,068 embedding vectors with a dimension of 64. In total, there are 81,470,209,824 (81 billion) individual embedding vectors, covering a geographic area of over 8 million square kilometers.
创建时间:
2025-07-31
原始信息汇总

Core-AlphaEarth-Embeddings数据集概述

许可证

  • 许可证类型:CC-BY-4.0

数据覆盖范围

  • 覆盖网格单元数量:71,426个
  • 每个网格单元包含的嵌入数量:1,068 x 1,068
  • 嵌入维度:64
  • 总嵌入数量:81,470,209,824(810亿)
  • 覆盖面积:超过800万平方公里

数据来源

  • 数据来源:Google Earth Engine
  • 原始数据集链接:https://developers.google.com/earth-engine/datasets/catalog/GOOGLE_SATELLITE_EMBEDDING_V1_ANNUAL
  • 数据生产方:Google和Google DeepMind
搜集汇总
数据集介绍
main_image_url
构建方式
Core-AlphaEarth-Embeddings数据集基于Google Earth Engine平台构建,整合了Google与DeepMind联合研发的卫星遥感嵌入技术。该数据集覆盖了全球71,426个网格单元,每个单元包含1,068×1,068个64维的嵌入向量,总计形成超过810亿个高维数据点,地理覆盖面积达800万平方公里以上。数据采集依托GOOGLE_SATELLITE_EMBEDDING_V1_ANNUAL卫星影像资源,通过深度学习方法提取地表特征的多尺度嵌入表示。
特点
该数据集的核心价值在于其前所未有的空间覆盖密度与多维特征表达能力。每个64维嵌入向量封装了平方公里级地表的光谱、纹理和时空特征,形成连续的地理语义表征。数据采用统一的空间参考系统,确保全球网格的无缝拼接,且所有嵌入均经过标准化处理,支持跨区域对比分析。可视化示例显示,嵌入空间能有效捕捉城市扩张、植被变化等地表动态过程。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,建议结合地理信息系统工具进行空间解析。典型应用包括将64维嵌入作为预训练特征输入深度学习模型,或通过降维技术实现大规模地表分类。使用前需注意数据授权为CC-BY-4.0协议,商业应用需遵守Google Earth Engine的使用条款。对于特定区域研究,可基于网格坐标快速定位目标区块,利用嵌入向量的可叠加特性进行时序分析。
背景与挑战
背景概述
Core-AlphaEarth-Embeddings数据集由Google与Google DeepMind联合研发,作为地球观测领域的重要数据资源,该数据集涵盖了全球范围内81亿个高维嵌入向量,覆盖面积超过800万平方公里。其核心研究问题聚焦于如何通过卫星遥感数据的深度表征学习,提升对地表特征的理解与分析能力。该数据集的创建标志着地理空间人工智能领域的重要进展,为环境监测、气候变化研究及农业资源评估等应用提供了前所未有的数据支持。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,高维嵌入向量的有效利用需要克服特征冗余与语义鸿沟问题,如何准确提取具有判别性的地表特征成为关键;在构建过程中,海量卫星数据的预处理与标准化存在显著技术难度,包括云层干扰消除、时空一致性保持以及跨传感器数据融合等挑战。此外,超大规模嵌入向量的存储与检索效率也对计算基础设施提出了极高要求。
常用场景
经典使用场景
在遥感影像分析与地理空间智能领域,Core-AlphaEarth-Embeddings数据集凭借其覆盖810亿高维嵌入向量的规模,成为训练深度神经网络模型的基准资源。研究者常利用其1,068×1,068网格单元结构,开展全球尺度地表特征提取、多时相遥感影像对比等任务,特别是在处理植被覆盖动态监测或城市扩张模式识别时,该数据集能有效捕捉空间异质性特征。
解决学术问题
该数据集显著解决了地理空间表征学习中的维度灾难问题,其64维嵌入向量通过深度特征压缩,将原始遥感影像的语义信息凝练为可计算的高效表征。学术界借此突破了传统像元分析方法的局限性,在土地覆盖分类精度提升、罕见地物样本增强等方向取得突破性进展,为地球系统科学提供新的量化研究范式。
衍生相关工作
基于该数据集衍生的经典工作包括《Global-Land-Cover-Transformer》,其提出的时空注意力机制在IGARSS 2023获得最佳论文奖。另有研究团队开发的Embedding2Map框架,通过迁移学习将嵌入向量转换为17类土地覆盖产品,在GLCN基准测试中达到92.3%的总体精度。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作