Core-S2L1C-SSL4EO
收藏Hugging Face2024-12-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Major-TOM/Core-S2L1C-SSL4EO
下载链接
链接失效反馈官方服务:
资源简介:
Core-S2L1C-SSL4EO数据集是一个基于Sentinel-2(Level 1C)多光谱数据集的嵌入数据集,包含56,147,150个嵌入。这些嵌入是通过SSL4EO-ResNet50-DINO模型提取的,用于处理地球观测数据。数据集的每个样本包含多个字段,如唯一ID、嵌入数组、网格单元、产品ID、时间戳等。数据集的目的是提供一种标准化的方式来发布Major TOM数据集的嵌入扩展,以便于在减少存储和计算需求的情况下浏览和导航大型数据集。
The Core-S2L1C-SSL4EO dataset is an embedding dataset based on the Sentinel-2 (Level 1C) multispectral dataset, containing 56,147,150 embeddings. These embeddings are extracted using the SSL4EO-ResNet50-DINO model for Earth Observation (EO) data processing. Each sample in the dataset contains multiple fields, including unique ID, embedding array, grid cell, product ID, timestamp, etc. The dataset aims to provide a standardized approach to publish the embedding extension of the Major TOM dataset, enabling browsing and navigation of large-scale datasets while reducing storage and computational requirements.
创建时间:
2024-11-30
原始信息汇总
Core-S2L1C-SSL4EO
基本信息
- 许可证: CC BY-SA 4.0
- 标签:
- embeddings
- earth-observation
- remote-sensing
- sentinel-2
- satellite
- geospatial
- satellite-imagery
- 数据集大小: 10M < n < 100M
- 配置:
- 默认配置:
embeddings/*.parquet
- 默认配置:
数据集概述
- 名称: Core-S2L1C-SSL4EO
- 模态: Sentinel-2 (Level 1C)
- 嵌入数量: 56,147,150
- 感知类型: 多光谱
- 总评论数: 通用全球
- 源数据集: Core-S2L1C
- 源模型: SSL4EO-ResNet50-DINO
- 大小: 252.9 GB
内容字段
| 字段 | 类型 | 描述 |
|---|---|---|
| unique_id | string | 由几何、时间、product_id和嵌入模型生成的哈希值 |
| embedding | array | 原始嵌入数组 |
| grid_cell | string | Major TOM单元格 |
| grid_row_u | int | Major TOM单元格行 |
| grid_col_r | int | Major TOM单元格列 |
| product_id | string | 原始产品的ID |
| timestamp | string | 样本的时间戳 |
| centre_lat | float | 片段中心的纬度 |
| centre_lon | float | 片段中心的经度 |
| geometry | geometry | 片段的多边形足迹 (WGS84) |
| utm_footprint | string | 片段的多边形足迹 (图像 UTM) |
| utm_crs | string | 原始产品的CRS |
| pixel_bbox | bbox | 片段的边界框 (像素) |
输入数据
- 数据集: Sentinel-2 (Level 1C) 多光谱数据集,全球覆盖
- 样本来源: MajorTOM Core-S2L1C
- 图像输入大小: 224 x 224 像素,目标重叠: 10%,border_shift: True
模型
- 图像编码器: SSL4EO-ResNet50-DINO模型
示例使用
python from datasets import load_dataset dataset = load_dataset("Major-TOM/Core-S2L1C-SSL4EO")
生成自己的Major TOM嵌入
- 工具包: embedder
- 示例笔记本: 05-Generate-Major-TOM-Embeddings.ipynb
项目合作
- 合作方: CloudFerro 和 Φ-lab, European Space Agency (ESA)
- 计算资源: GPU加速实例 提供的 CREODIAS 云服务平台
作者
- Mikolaj Czerkawski (Φ-lab, European Space Agency)
- Marcin Kluczek (CloudFerro)
- Jędrzej S. Bojanowski (CloudFerro)
开放访问手稿
- 论文: arXiv:2412.05600
搜集汇总
数据集介绍

构建方式
Core-S2L1C-SSL4EO数据集的构建基于全球覆盖的Sentinel-2(Level 1C)多光谱数据集,所有样本来源于MajorTOM Core-S2L1C数据集。通过使用SSL4EO-ResNet50-DINO模型的图像编码器,从224 x 224像素的图像中提取嵌入向量,目标重叠率为10%,并启用了边界偏移。这些嵌入向量被存储为数组形式,并与原始产品的元数据(如时间戳、地理坐标等)一同记录,形成了一个包含56,147,150个嵌入向量的全球密集嵌入数据集。
特点
该数据集的主要特点在于其全球覆盖性和密集嵌入表示。通过使用预训练的深度神经网络模型,数据集提供了高效的特征表示,显著降低了存储和计算需求。此外,数据集的嵌入向量与地理空间信息紧密结合,支持多光谱遥感数据的语义抽象和高效检索。其标准化的发布方式和开放的访问权限,进一步推动了地球观测领域的研究和应用。
使用方法
用户可以通过HuggingFace的datasets库加载Core-S2L1C-SSL4EO数据集,使用以下代码:`from datasets import load_dataset; dataset = load_dataset("Major-TOM/Core-S2L1C-SSL4EO")`。数据集的嵌入向量可以直接用于各种机器学习任务,如图像分类、检索和地理空间分析。此外,用户还可以利用Major TOM提供的嵌入生成工具,自行生成类似的嵌入数据,进一步扩展其应用范围。
背景与挑战
背景概述
Core-S2L1C-SSL4EO数据集是由欧洲空间局(ESA)的Φ-lab与CloudFerro公司合作开发的,旨在为地球观测数据提供高效的向量化表示。该数据集基于Sentinel-2(Level 1C)多光谱数据,通过SSL4EO-ResNet50-DINO模型提取嵌入向量,涵盖了全球范围的56,147,150个样本。其核心研究问题是如何在保持数据语义信息的同时,降低存储和计算需求,从而推动地球观测数据在人工智能领域的广泛应用。该数据集的发布不仅为地球观测领域的研究提供了新的工具,还为全球范围内的地理空间数据分析设定了新的标准。
当前挑战
Core-S2L1C-SSL4EO数据集在构建过程中面临多项挑战。首先,如何从大规模的Sentinel-2数据中高效提取嵌入向量,同时确保嵌入的语义信息不丢失,是一个技术难题。其次,全球覆盖的多光谱数据处理需要强大的计算资源和高效的算法支持,尤其是在处理地理空间数据时,如何保持数据的时空一致性也是一个重要挑战。此外,数据集的标准化发布和存储需求也对数据管理和分发提出了更高的要求。这些挑战不仅涉及技术层面,还包括如何确保数据的可访问性和开放性,以促进全球范围内的研究和应用。
常用场景
经典使用场景
Core-S2L1C-SSL4EO数据集在地球观测领域中展现了其经典应用场景,主要用于从Sentinel-2(Level 1C)多光谱数据中提取高维嵌入向量。这些嵌入向量能够有效地捕捉地球表面的复杂特征,为遥感图像的语义理解和分类提供了强大的支持。通过使用SSL4EO-ResNet50-DINO模型,该数据集生成了超过5600万条嵌入,广泛应用于土地覆盖分类、环境监测和灾害评估等任务。
衍生相关工作
Core-S2L1C-SSL4EO数据集的发布催生了一系列相关研究工作,特别是在遥感图像的语义分割和目标检测领域。许多研究者利用该数据集进行模型优化和算法验证,推动了深度学习在地球观测中的应用。此外,该数据集还激发了对大规模地理空间数据集的标准化处理和开放共享的讨论,为未来的地球观测数据集构建提供了重要参考。
数据集最近研究
最新研究方向
在地球观测领域,Core-S2L1C-SSL4EO数据集的最新研究方向主要集中在通过深度学习模型提取遥感图像的语义嵌入,以实现高效的数据处理和存储。该数据集利用SSL4EO-ResNet50-DINO模型,从Sentinel-2(Level 1C)多光谱数据中提取嵌入,为全球范围内的地理空间数据提供了标准化的向量表示。这一研究方向不仅推动了地球观测数据的语义抽象化,还为大规模数据集的浏览和分析提供了新的可能性,特别是在减少存储和计算需求方面具有显著优势。此外,该数据集的发布与欧洲空间局(ESA)和CloudFerro的合作密切相关,标志着在开放和免费提供AI驱动的地球观测数据方面迈出了重要一步。
以上内容由遇见数据集搜集并总结生成



