five

Core-S2RGB-DINOv2

收藏
Hugging Face2024-12-10 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/Major-TOM/Core-S2RGB-DINOv2
下载链接
链接失效反馈
官方服务:
资源简介:
Core-S2RGB-DINOv2数据集包含从Sentinel-2 Level 2A(RGB)卫星图像中提取的56,147,150个嵌入向量。这些嵌入向量是通过DINOv2模型生成的,用于表示图像的特征。数据集中的每个样本包含一个唯一的ID、嵌入向量、网格单元信息、产品ID、时间戳、中心纬度和经度、几何形状、UTM足迹和像素边界框。输入数据是经过处理的Sentinel-2 RGB反射率图像,尺寸为224x224像素,目标重叠率为10%。

The Core-S2RGB-DINOv2 dataset contains 56,147,150 embedding vectors extracted from Sentinel-2 Level 2A (RGB) satellite imagery. These embeddings are generated by the DINOv2 model to represent image features. Each sample in the dataset includes a unique ID, embedding vector, grid cell information, product ID, timestamp, central latitude and longitude, geometry, UTM footprint, and pixel bounding box. The input data consists of preprocessed Sentinel-2 RGB reflectance images with a size of 224×224 pixels and a target overlap rate of 10%.
创建时间:
2024-11-30
原始信息汇总

Core-S2RGB-DINOv2 数据集

基本信息

  • 数据集名称: Core-S2RGB-DINOv2
  • 许可证: CC BY-SA 4.0
  • 标签:
    • embeddings
    • earth-observation
    • remote-sensing
    • sentinel-2
    • satellite
    • geospatial
    • satellite-imagery
  • 数据集大小: 10M<n<100M
  • 配置:
    • 配置名称: default
    • 数据文件: embeddings/*.parquet

数据集概述

  • 数据集: Core-S2RGB-SigLIP
  • 模态: Sentinel-2 Level 2A (RGB)
  • 嵌入数量: 56,147,150
  • 感知类型: True Colour (RGB)
  • 总评论数: General-Purpose Global
  • 源数据集: Core-S2L2A
  • 源模型: DINOv2
  • 数据集大小: 223.1 GB

数据内容

字段 类型 描述
unique_id string 由几何、时间、product_id和嵌入模型生成的哈希值
embedding array 原始嵌入数组
grid_cell string Major TOM 单元格
grid_row_u int Major TOM 单元格行
grid_col_r int Major TOM 单元格列
product_id string 原始产品的ID
timestamp string 样本的时间戳
centre_lat float 片段中心的纬度
centre_lon float 片段中心的经度
geometry geometry 片段的多边形足迹 (WGS84)
utm_footprint string 片段的多边形足迹 (图像 UTM)
utm_crs string 原始产品的CRS
pixel_bbox bbox 片段的边界框 (像素)

输入数据

  • 数据源: Sentinel-2 (Level 2A) RGB 反射率乘以 2.5 并裁剪在 0 和 1 之间,以模拟训练数据中的图像
  • 所有样本: 来自 MajorTOM Core-S2LA
  • 图像输入大小: 224 x 224 像素,目标重叠: 10%,border_shift: True

模型

示例使用

python from datasets import load_dataset dataset = load_dataset("Major-TOM/Core-S2RGB-DINOv2")

生成自己的 Major TOM 嵌入

项目背景

作者

  • Mikolaj Czerkawski (Φ-lab, European Space Agency)
  • Marcin Kluczek (CloudFerro)
  • Jędrzej S. Bojanowski (CloudFerro)

开放访问手稿

搜集汇总
数据集介绍
main_image_url
构建方式
Core-S2RGB-DINOv2数据集的构建基于Sentinel-2 Level 2A的RGB反射率数据,通过将反射率乘以2.5并裁剪至0到1之间,模拟训练数据的图像特征。所有样本源自MajorTOM Core-S2L2A数据集,图像输入尺寸为224x224像素,目标重叠率为10%,并启用了边界偏移。使用DINOv2模型的图像编码器提取嵌入向量,生成了包含56,147,150个嵌入向量的数据集,总大小为223.1 GB。
特点
Core-S2RGB-DINOv2数据集的主要特点在于其大规模的嵌入向量集合,涵盖了全球范围的地球观测数据。这些嵌入向量通过预训练的DINOv2模型生成,具有高维语义抽象能力,能够有效降低存储和计算需求。此外,数据集提供了详细的元数据,包括时间戳、地理坐标和几何信息,便于进行地理空间分析和应用。
使用方法
使用Core-S2RGB-DINOv2数据集时,用户可以通过Hugging Face的datasets库加载数据集,代码示例如下:`from datasets import load_dataset; dataset = load_dataset("Major-TOM/Core-S2RGB-DINOv2")`。此外,用户还可以利用Major TOM项目的embedder子包生成类似的嵌入向量,具体方法可参考提供的Jupyter Notebook示例。
背景与挑战
背景概述
Core-S2RGB-DINOv2数据集是由欧洲空间局(ESA)的Φ-lab与CloudFerro合作开发,旨在为地球观测数据提供高效的向量表示。该数据集基于Sentinel-2 Level 2A的RGB反射率数据,通过DINOv2模型提取嵌入向量,涵盖了全球范围内的56,147,150个样本。其核心研究问题是如何在海量地球观测数据中,通过预训练的深度神经网络提取语义抽象,以降低存储和计算需求。该数据集的发布标志着地球观测领域在数据标准化和开放共享方面的重要进展,为全球研究人员提供了丰富的资源。
当前挑战
Core-S2RGB-DINOv2数据集在构建过程中面临多项挑战。首先,如何从海量的Sentinel-2数据中高效提取嵌入向量,确保数据的准确性和一致性,是一个技术难题。其次,由于地球观测数据的多样性和复杂性,模型在不同地理区域的表现可能存在差异,需要进一步优化。此外,数据集的存储和计算需求巨大,如何在有限的资源下实现高效的分布式处理,也是一大挑战。最后,如何确保数据集的开放性和标准化,以便全球研究者能够便捷地使用和扩展,是该数据集面临的长期挑战。
常用场景
经典使用场景
Core-S2RGB-DINOv2数据集在遥感领域中具有广泛的应用,尤其是在地球观测数据的特征提取与分析方面。该数据集通过使用DINOv2模型从Sentinel-2卫星的RGB图像中提取嵌入向量,这些向量能够捕捉到图像的语义信息,从而为后续的图像分类、目标检测和变化检测等任务提供了强有力的支持。其经典使用场景包括但不限于:利用这些嵌入向量进行大规模遥感图像的快速检索与匹配,以及在地理空间分析中进行高效的特征表示与聚类。
解决学术问题
Core-S2RGB-DINOv2数据集解决了遥感领域中长期存在的数据处理效率低下和存储需求过大的问题。通过引入深度学习模型提取的嵌入向量,该数据集显著降低了数据的存储和计算需求,同时保留了图像的语义信息。这一创新不仅为地球观测数据的分析提供了新的工具,还为遥感领域的研究者们提供了更为便捷的数据处理方式,推动了遥感技术在环境监测、农业管理和城市规划等领域的应用。
衍生相关工作
Core-S2RGB-DINOv2数据集的发布催生了一系列相关的经典工作,特别是在遥感图像的特征提取与分析领域。例如,基于该数据集的研究者们开发了多种高效的图像检索算法,进一步提升了遥感图像的利用效率。此外,该数据集还激发了在地理空间数据分析中的新方法,如利用嵌入向量进行多源数据的融合与分析。这些衍生工作不仅丰富了遥感领域的研究内容,也为实际应用提供了更多的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作