five

Core-S2RGB-DINOv2|卫星图像分析数据集|深度学习数据集

收藏
huggingface2024-12-10 更新2024-12-12 收录
卫星图像分析
深度学习
下载链接:
https://huggingface.co/datasets/Major-TOM/Core-S2RGB-DINOv2
下载链接
链接失效反馈
资源简介:
Core-S2RGB-DINOv2数据集包含从Sentinel-2 Level 2A(RGB)卫星图像中提取的56,147,150个嵌入向量。这些嵌入向量是通过DINOv2模型生成的,用于表示图像的特征。数据集中的每个样本包含一个唯一的ID、嵌入向量、网格单元信息、产品ID、时间戳、中心纬度和经度、几何形状、UTM足迹和像素边界框。输入数据是经过处理的Sentinel-2 RGB反射率图像,尺寸为224x224像素,目标重叠率为10%。
创建时间:
2024-11-30
原始信息汇总

Core-S2RGB-DINOv2 数据集

基本信息

  • 数据集名称: Core-S2RGB-DINOv2
  • 许可证: CC BY-SA 4.0
  • 标签:
    • embeddings
    • earth-observation
    • remote-sensing
    • sentinel-2
    • satellite
    • geospatial
    • satellite-imagery
  • 数据集大小: 10M<n<100M
  • 配置:
    • 配置名称: default
    • 数据文件: embeddings/*.parquet

数据集概述

  • 数据集: Core-S2RGB-SigLIP
  • 模态: Sentinel-2 Level 2A (RGB)
  • 嵌入数量: 56,147,150
  • 感知类型: True Colour (RGB)
  • 总评论数: General-Purpose Global
  • 源数据集: Core-S2L2A
  • 源模型: DINOv2
  • 数据集大小: 223.1 GB

数据内容

字段 类型 描述
unique_id string 由几何、时间、product_id和嵌入模型生成的哈希值
embedding array 原始嵌入数组
grid_cell string Major TOM 单元格
grid_row_u int Major TOM 单元格行
grid_col_r int Major TOM 单元格列
product_id string 原始产品的ID
timestamp string 样本的时间戳
centre_lat float 片段中心的纬度
centre_lon float 片段中心的经度
geometry geometry 片段的多边形足迹 (WGS84)
utm_footprint string 片段的多边形足迹 (图像 UTM)
utm_crs string 原始产品的CRS
pixel_bbox bbox 片段的边界框 (像素)

输入数据

  • 数据源: Sentinel-2 (Level 2A) RGB 反射率乘以 2.5 并裁剪在 0 和 1 之间,以模拟训练数据中的图像
  • 所有样本: 来自 MajorTOM Core-S2LA
  • 图像输入大小: 224 x 224 像素,目标重叠: 10%,border_shift: True

模型

示例使用

python from datasets import load_dataset dataset = load_dataset("Major-TOM/Core-S2RGB-DINOv2")

生成自己的 Major TOM 嵌入

项目背景

作者

  • Mikolaj Czerkawski (Φ-lab, European Space Agency)
  • Marcin Kluczek (CloudFerro)
  • Jędrzej S. Bojanowski (CloudFerro)

开放访问手稿

AI搜集汇总
数据集介绍
main_image_url
构建方式
Core-S2RGB-DINOv2数据集的构建基于Sentinel-2 Level 2A的RGB反射率数据,通过将反射率乘以2.5并裁剪至0到1之间,模拟训练数据的图像特征。所有样本源自MajorTOM Core-S2L2A数据集,图像输入尺寸为224x224像素,目标重叠率为10%,并启用了边界偏移。使用DINOv2模型的图像编码器提取嵌入向量,生成了包含56,147,150个嵌入向量的数据集,总大小为223.1 GB。
特点
Core-S2RGB-DINOv2数据集的主要特点在于其大规模的嵌入向量集合,涵盖了全球范围的地球观测数据。这些嵌入向量通过预训练的DINOv2模型生成,具有高维语义抽象能力,能够有效降低存储和计算需求。此外,数据集提供了详细的元数据,包括时间戳、地理坐标和几何信息,便于进行地理空间分析和应用。
使用方法
使用Core-S2RGB-DINOv2数据集时,用户可以通过Hugging Face的datasets库加载数据集,代码示例如下:`from datasets import load_dataset; dataset = load_dataset("Major-TOM/Core-S2RGB-DINOv2")`。此外,用户还可以利用Major TOM项目的embedder子包生成类似的嵌入向量,具体方法可参考提供的Jupyter Notebook示例。
背景与挑战
背景概述
Core-S2RGB-DINOv2数据集是由欧洲空间局(ESA)的Φ-lab与CloudFerro合作开发,旨在为地球观测数据提供高效的向量表示。该数据集基于Sentinel-2 Level 2A的RGB反射率数据,通过DINOv2模型提取嵌入向量,涵盖了全球范围内的56,147,150个样本。其核心研究问题是如何在海量地球观测数据中,通过预训练的深度神经网络提取语义抽象,以降低存储和计算需求。该数据集的发布标志着地球观测领域在数据标准化和开放共享方面的重要进展,为全球研究人员提供了丰富的资源。
当前挑战
Core-S2RGB-DINOv2数据集在构建过程中面临多项挑战。首先,如何从海量的Sentinel-2数据中高效提取嵌入向量,确保数据的准确性和一致性,是一个技术难题。其次,由于地球观测数据的多样性和复杂性,模型在不同地理区域的表现可能存在差异,需要进一步优化。此外,数据集的存储和计算需求巨大,如何在有限的资源下实现高效的分布式处理,也是一大挑战。最后,如何确保数据集的开放性和标准化,以便全球研究者能够便捷地使用和扩展,是该数据集面临的长期挑战。
常用场景
经典使用场景
Core-S2RGB-DINOv2数据集在遥感领域中具有广泛的应用,尤其是在地球观测数据的特征提取与分析方面。该数据集通过使用DINOv2模型从Sentinel-2卫星的RGB图像中提取嵌入向量,这些向量能够捕捉到图像的语义信息,从而为后续的图像分类、目标检测和变化检测等任务提供了强有力的支持。其经典使用场景包括但不限于:利用这些嵌入向量进行大规模遥感图像的快速检索与匹配,以及在地理空间分析中进行高效的特征表示与聚类。
解决学术问题
Core-S2RGB-DINOv2数据集解决了遥感领域中长期存在的数据处理效率低下和存储需求过大的问题。通过引入深度学习模型提取的嵌入向量,该数据集显著降低了数据的存储和计算需求,同时保留了图像的语义信息。这一创新不仅为地球观测数据的分析提供了新的工具,还为遥感领域的研究者们提供了更为便捷的数据处理方式,推动了遥感技术在环境监测、农业管理和城市规划等领域的应用。
衍生相关工作
Core-S2RGB-DINOv2数据集的发布催生了一系列相关的经典工作,特别是在遥感图像的特征提取与分析领域。例如,基于该数据集的研究者们开发了多种高效的图像检索算法,进一步提升了遥感图像的利用效率。此外,该数据集还激发了在地理空间数据分析中的新方法,如利用嵌入向量进行多源数据的融合与分析。这些衍生工作不仅丰富了遥感领域的研究内容,也为实际应用提供了更多的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录