csaybar/CloudSEN12-scribble

Name: csaybar/CloudSEN12-scribble
Creator: csaybar
Published: 2023-04-24 22:59:00
License: 暂无描述

Hugging Face2023-04-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/csaybar/CloudSEN12-scribble

下载链接

链接失效反馈

官方服务：

资源简介：

CloudSEN12 SCRIBBLE是一个用于云语义理解的大规模数据集，包含49,400个图像块，覆盖除南极洲外的所有大陆。每个图像块覆盖5090 x 5090米，包含Sentinel-2的1C和2A级别数据、手工标注的厚云和薄云及云阴影、Sentinel-1合成孔径雷达（SAR）、数字高程模型、地表水出现频率、土地覆盖类别以及六种先进云检测算法的云掩码结果。数据集支持弱监督、自监督和半监督学习策略，包含高质量、涂鸦和无注释三种手工标注数据。

提供机构：

csaybar

原始信息汇总

数据集概述

数据集名称

CloudSEN12 SCRIBBLE

数据集描述

CloudSEN12是一个大型数据集（约1TB），专为云的语义理解设计。该数据集包含49,400个图像块（IP），均匀分布在全球除南极洲外的所有大陆。每个IP覆盖5090 x 5090米，包含来自Sentinel-2级别1C和2A的数据，以及手工标注的厚云、薄云和云影，Sentinel-1合成孔径雷达（SAR），数字高程模型，地表水出现情况，土地覆盖类别，以及六种尖端云检测算法的云掩码结果。

数据集内容

图像数据：来自Sentinel-2的多个波段数据，包括可见光、近红外和短波红外波段。
标注数据：包括高质星、涂鸦和无标注三种形式的手工标注数据。
其他数据：包括Sentinel-1 SAR数据、数字高程模型、地表水出现频率、土地覆盖类别等。

文件描述

L1C_ & L2A_：Sentinel-2的多个波段数据，如B1至B12，涵盖不同的光谱范围。
S1_：Sentinel-1 SAR数据，包括VV和VH极化数据。
EXTRA_：额外数据，如云位移指数、方位角、海拔等。
LABEL_：多种云检测算法的标注结果，如fmask、QA60、s2cloudless等。

标注描述

CloudSEN12：提供0（清晰）、1（厚云）、2（薄云）、3（云影）的标注。
其他算法：如KappaMask、Sen2Cor、Fmask等，各有其特定的标注值。

数据集形状

训练集：(8785, 512, 512)
验证集：(560, 512, 512)
测试集：(655, 512, 512)

许可证

CC-BY-NC-4.0

搜集汇总

数据集介绍

构建方式

CloudSEN12 SCRIBBLE数据集是以Sentinel-2多光谱影像为基础，涵盖全球除南极洲外所有大陆的49,400个图像块，每个图像块覆盖5090 x 5090米区域。该数据集的构建采用了多源数据融合方法，整合了Sentinel-1合成孔径雷达数据、数字高程模型、地表水发生概率、土地覆盖类别以及六种先进的云检测算法的云掩膜结果，同时包含三种不同的手工标注数据形式：高质量标注、scribble标注和无标注，以支持弱监督及自我/半监督学习策略。

特点

CloudSEN12 SCRIBBLE数据集的特点在于其规模宏大、多尺度、多模态数据的综合应用，以及创新的标注策略。数据集不仅提供了丰富的光谱信息，还包含了雷达数据和多种辅助信息，为云语义理解研究提供了全面的数据支持。此外，该数据集的标注数据形式多样，能够满足不同学习策略的需求，对于推动云检测技术的发展具有重要意义。

使用方法

使用CloudSEN12 SCRIBBLE数据集，用户可以通过提供的下载链接获取数据集，并根据具体的研究需求选择不同的数据类型和标注形式。数据集支持在线检查，无需下载即可预览，方便用户快速评估数据集的适用性。同时，数据集还提供了在Google Earth Engine中的使用示例，用户可以通过该平台进行数据处理和分析。对于希望在深度学习框架中使用数据的用户，可以通过numpy的memmap功能高效地读取数据。

背景与挑战

背景概述

CloudSEN12数据集，诞生于对云语义理解需求的深刻认识，由西班牙和奥地利的研究团队合作开发。该数据集在2022年发布，旨在为云分类、云检测等领域提供高质量的研究资源。它包含49,400个图像块，这些图像块均匀分布在全球各大洲（除南极洲外），每个图像块覆盖5090 x 5090米的区域。数据集整合了多种数据源，包括Sentinel-2卫星数据、合成孔径雷达数据、数字高程模型等，并提供了三种不同的标注形式：高质量标注、草图标注和无标注，以支持不同程度的监督学习策略。CloudSEN12的发布，极大地推动了遥感领域云语义理解技术的发展，成为该领域的重要基准数据集。

当前挑战

尽管CloudSEN12数据集为云语义理解研究提供了丰富的数据资源，但在构建和使用过程中也面临诸多挑战。首先，数据集的构建需要整合多源异构数据，这对数据预处理和融合技术提出了较高的要求。其次，由于数据量庞大（约1TB），对存储和计算资源提出了较高的挑战。此外，数据集标注的准确性直接关系到模型训练的效果，而高质量的标注需要大量的人工投入。最后，如何有效地利用CloudSEN12数据集进行弱监督学习和半监督学习，以提高模型的泛化能力和计算效率，是当前研究中的一个重要挑战。

常用场景

经典使用场景

在云语义理解领域，CloudSEN12数据集的经典使用场景在于，它提供了丰富的标注数据，支持研究人员进行半监督和自我监督学习策略的探索。该数据集包含了高质量、涂鸦式和无标注三种形式的标注，为不同的学习策略提供了可能性。

衍生相关工作

基于CloudSEN12数据集，衍生出了一系列相关研究工作，包括但不限于云检测算法的改进、卫星图像解析模型的优化以及云覆盖对地表影响的研究，这些工作进一步扩展了数据集的应用范围和影响力。

数据集最近研究