csaybar/CloudSEN12-scribble
收藏Hugging Face2023-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/csaybar/CloudSEN12-scribble
下载链接
链接失效反馈官方服务:
资源简介:
CloudSEN12 SCRIBBLE是一个用于云语义理解的大规模数据集,包含49,400个图像块,覆盖除南极洲外的所有大陆。每个图像块覆盖5090 x 5090米,包含Sentinel-2的1C和2A级别数据、手工标注的厚云和薄云及云阴影、Sentinel-1合成孔径雷达(SAR)、数字高程模型、地表水出现频率、土地覆盖类别以及六种先进云检测算法的云掩码结果。数据集支持弱监督、自监督和半监督学习策略,包含高质量、涂鸦和无注释三种手工标注数据。
CloudSEN12 SCRIBBLE是一个用于云语义理解的大规模数据集,包含49,400个图像块,覆盖除南极洲外的所有大陆。每个图像块覆盖5090 x 5090米,包含Sentinel-2的1C和2A级别数据、手工标注的厚云和薄云及云阴影、Sentinel-1合成孔径雷达(SAR)、数字高程模型、地表水出现频率、土地覆盖类别以及六种先进云检测算法的云掩码结果。数据集支持弱监督、自监督和半监督学习策略,包含高质量、涂鸦和无注释三种手工标注数据。
提供机构:
csaybar
原始信息汇总
数据集概述
数据集名称
CloudSEN12 SCRIBBLE
数据集描述
CloudSEN12是一个大型数据集(约1TB),专为云的语义理解设计。该数据集包含49,400个图像块(IP),均匀分布在全球除南极洲外的所有大陆。每个IP覆盖5090 x 5090米,包含来自Sentinel-2级别1C和2A的数据,以及手工标注的厚云、薄云和云影,Sentinel-1合成孔径雷达(SAR),数字高程模型,地表水出现情况,土地覆盖类别,以及六种尖端云检测算法的云掩码结果。
数据集内容
- 图像数据:来自Sentinel-2的多个波段数据,包括可见光、近红外和短波红外波段。
- 标注数据:包括高质星、涂鸦和无标注三种形式的手工标注数据。
- 其他数据:包括Sentinel-1 SAR数据、数字高程模型、地表水出现频率、土地覆盖类别等。
文件描述
- L1C_ & L2A_:Sentinel-2的多个波段数据,如B1至B12,涵盖不同的光谱范围。
- S1_:Sentinel-1 SAR数据,包括VV和VH极化数据。
- EXTRA_:额外数据,如云位移指数、方位角、海拔等。
- LABEL_:多种云检测算法的标注结果,如fmask、QA60、s2cloudless等。
标注描述
- CloudSEN12:提供0(清晰)、1(厚云)、2(薄云)、3(云影)的标注。
- 其他算法:如KappaMask、Sen2Cor、Fmask等,各有其特定的标注值。
数据集形状
- 训练集:(8785, 512, 512)
- 验证集:(560, 512, 512)
- 测试集:(655, 512, 512)
许可证
CC-BY-NC-4.0
搜集汇总
数据集介绍

构建方式
CloudSEN12 SCRIBBLE数据集是以Sentinel-2多光谱影像为基础,涵盖全球除南极洲外所有大陆的49,400个图像块,每个图像块覆盖5090 x 5090米区域。该数据集的构建采用了多源数据融合方法,整合了Sentinel-1合成孔径雷达数据、数字高程模型、地表水发生概率、土地覆盖类别以及六种先进的云检测算法的云掩膜结果,同时包含三种不同的手工标注数据形式:高质量标注、scribble标注和无标注,以支持弱监督及自我/半监督学习策略。
特点
CloudSEN12 SCRIBBLE数据集的特点在于其规模宏大、多尺度、多模态数据的综合应用,以及创新的标注策略。数据集不仅提供了丰富的光谱信息,还包含了雷达数据和多种辅助信息,为云语义理解研究提供了全面的数据支持。此外,该数据集的标注数据形式多样,能够满足不同学习策略的需求,对于推动云检测技术的发展具有重要意义。
使用方法
使用CloudSEN12 SCRIBBLE数据集,用户可以通过提供的下载链接获取数据集,并根据具体的研究需求选择不同的数据类型和标注形式。数据集支持在线检查,无需下载即可预览,方便用户快速评估数据集的适用性。同时,数据集还提供了在Google Earth Engine中的使用示例,用户可以通过该平台进行数据处理和分析。对于希望在深度学习框架中使用数据的用户,可以通过numpy的memmap功能高效地读取数据。
背景与挑战
背景概述
CloudSEN12数据集,诞生于对云语义理解需求的深刻认识,由西班牙和奥地利的研究团队合作开发。该数据集在2022年发布,旨在为云分类、云检测等领域提供高质量的研究资源。它包含49,400个图像块,这些图像块均匀分布在全球各大洲(除南极洲外),每个图像块覆盖5090 x 5090米的区域。数据集整合了多种数据源,包括Sentinel-2卫星数据、合成孔径雷达数据、数字高程模型等,并提供了三种不同的标注形式:高质量标注、草图标注和无标注,以支持不同程度的监督学习策略。CloudSEN12的发布,极大地推动了遥感领域云语义理解技术的发展,成为该领域的重要基准数据集。
当前挑战
尽管CloudSEN12数据集为云语义理解研究提供了丰富的数据资源,但在构建和使用过程中也面临诸多挑战。首先,数据集的构建需要整合多源异构数据,这对数据预处理和融合技术提出了较高的要求。其次,由于数据量庞大(约1TB),对存储和计算资源提出了较高的挑战。此外,数据集标注的准确性直接关系到模型训练的效果,而高质量的标注需要大量的人工投入。最后,如何有效地利用CloudSEN12数据集进行弱监督学习和半监督学习,以提高模型的泛化能力和计算效率,是当前研究中的一个重要挑战。
常用场景
经典使用场景
在云语义理解领域,CloudSEN12数据集的经典使用场景在于,它提供了丰富的标注数据,支持研究人员进行半监督和自我监督学习策略的探索。该数据集包含了高质量、涂鸦式和无标注三种形式的标注,为不同的学习策略提供了可能性。
衍生相关工作
基于CloudSEN12数据集,衍生出了一系列相关研究工作,包括但不限于云检测算法的改进、卫星图像解析模型的优化以及云覆盖对地表影响的研究,这些工作进一步扩展了数据集的应用范围和影响力。
数据集最近研究
最新研究方向
在遥感领域,CloudSEN12数据集以其全面的云语义理解相关数据,成为了研究的热点。该数据集不仅包含了丰富多样的地理分布,还提供了多源数据和多种标注形式,为弱监督学习和半监督学习策略提供了可能。近期研究方向主要集中在如何利用CloudSEN12进行高效的云检测、分类以及云影识别。学者们探究了不同机器学习方法在此数据集上的表现,例如基于深度学习的云检测算法,以及结合多源数据提高分类精度。此外,研究还聚焦于数据集的时序分析,以探索云动态变化规律。这些研究对于提高天气预报准确性和气候研究具有重要意义。
以上内容由遇见数据集搜集并总结生成



