isp-uv-es/CloudSEN12Plus
收藏Hugging Face2025-02-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/isp-uv-es/CloudSEN12Plus
下载链接
链接失效反馈官方服务:
资源简介:
CloudSEN12+数据集是CloudSEN12数据集的重要扩展,提供了两倍的专家审核标签,是目前为止最大的用于Sentinel-2云检测的数据集。所有先前版本的标签都经过了校对和优化,提高了数据集的可信度。这个新版本在CC0许可下发布,属于公共领域,允许任何人无限制地使用、修改和分发。
CloudSEN12+ dataset is a significant extension of the CloudSEN12 dataset, doubling the number of expert-reviewed labels, making it by a large margin the largest cloud detection dataset to date for Sentinel-2. All labels from the previous version have been curated and refined, enhancing the datasets trustworthiness. This new release is licensed under CC0, which puts it in the public domain and allows anyone to use, modify, and distribute it without permission or attribution.
提供机构:
isp-uv-es
原始信息汇总
CloudSEN12+ 数据集概述
基本信息
- 许可证: CC0-1.0
- 任务类别: 图像分割
- 语言: 英语
- 标签: 气候
- 数据集名称: cloudsen12
- 数据规模: 100K<n<1M
数据集描述
CloudSEN12+ 是 CloudSEN12 数据集的重要扩展,专家审查标签数量翻倍,成为迄今为止最大的 Sentinel-2 云检测数据集。所有标签都经过精心筛选和改进,提高了数据集的可信度。该版本采用 CC0 许可证,允许任何人无需许可或归属即可使用、修改和分发。
数据结构
数据以 GeoTIFF 格式存储,包含以下波段:
| 名称 | 比例 | 波长 | 描述 |
|---|---|---|---|
| B1 | 0.0001 | 443.9 nm (S2A)/442.3 nm (S2B) | 气溶胶 |
| B2 | 0.0001 | 496.6 nm (S2A)/492.1 nm (S2B) | 蓝色 |
| B3 | 0.0001 | 560 nm (S2A)/559 nm (S2B) | 绿色 |
| B4 | 0.0001 | 664.5 nm (S2A)/665 nm (S2B) | 红色 |
| B5 | 0.0001 | 703.9 nm (S2A)/703.8 nm (S2B) | 红边 1 |
| B6 | 0.0001 | 740.2 nm (S2A)/739.1 nm (S2B) | 红边 2 |
| B7 | 0.0001 | 782.5 nm (S2A)/779.7 nm (S2B) | 红边 3 |
| B8 | 0.0001 | 835.1 nm (S2A)/833 nm (S2B) | 近红外 |
| B8A | 0.0001 | 864.8 nm (S2A)/864 nm (S2B) | 红边 4 |
| B9 | 0.0001 | 945 nm (S2A)/943.2 nm (S2B) | 水蒸气 |
| B10 | 0.0001 | 1373.5 nm (S2A)/1376.9 nm (S2B) | 卷云 |
| B11 | 0.0001 | 1613.7 nm (S2A)/1610.4 nm (S2B) | 短波红外 1 |
| B12 | 0.0001 | 2202.4 nm (S2A)/2185.7 nm (S2B) | 短波红外 2 |
| CM1 | 1 | - | 专家标记图像 |
| CM2 | 1 | - | UnetMobV2 标记图像 |
文件夹结构
CloudSEN12+ 数据集采用层次结构:
- 顶层 (A) 分为 p509 和 p2000 图像。
- 下一层 (B) 根据标签类型进一步组织。
- 每个标签类型内,根据随机数据分割进行分组 (C)。
- p509 类别内,根据地理位置进一步划分 (D)。
此外,fixed/ 文件夹包含改进的高和涂鸦标签,demo/ 文件夹包含使用 CloudSEN12 训练的模型估计硬度和可信度指数的示例。
下载
数据集在 HuggingFace 和 ScienceDataBank 上各有一份副本。
HuggingFace
python from huggingface_hub import hf_hub_download
for i in range(1, 19): hf_hub_download( repo_id="isp-uv-es/CloudSEN12Plus", repo_type="dataset", filename="synthetic/synthetic_%02d.zip" % i )
ScienceDataBank
python from huggingface_hub import hf_hub_download
for i in range(1, 19): hf_hub_download( repo_id="isp-uv-es/CloudSEN12Plus", repo_type="dataset", filename="synthetic/synthetic_%02d.zip" % i )
引用
即将提供。
搜集汇总
数据集介绍

构建方式
在遥感影像分析领域,云检测是提升地表观测数据可用性的关键环节。CloudSEN12+数据集作为CloudSEN12的扩展版本,其构建过程体现了严谨的科学方法。数据集基于Sentinel-2卫星的多光谱影像,通过专家人工标注与模型预测相结合的方式生成标签。原始影像经过精心处理,尺寸从509×509和2000×2000统一填充至512×512和2048×2048,确保与常见深度学习架构兼容。标注工作涵盖了高质量精细标签与草图式标签两类,所有历史标签均经过重新审核与优化,显著提升了数据的可靠性与一致性。数据按训练集、验证集和测试集进行分层划分,并以MLS格式存储于HuggingFace平台,同时提供GeoTIFF格式供传统工作流使用。
特点
CloudSEN12+数据集在云检测领域展现出若干突出特点。其最显著的优势在于规模,通过倍增专家审核的标签数量,成为目前最大的Sentinel-2云与云影检测数据集。数据集提供两种处理级别的Sentinel-2影像支持,即L1C大气顶层辐射亮度数据与L2A地表反射率数据,并引入了时间序列分析能力。标签体系设计精细,区分了厚云、薄云、云影及晴朗地表等类别,且对部分类别进一步划分边界与中心区域。数据覆盖全球多样地理区域,并包含不同标注置信度层级,为模型鲁棒性评估提供了丰富素材。此外,数据集采用CC0许可,允许无限制使用与分发,极大促进了学术与工程应用的开放性。
使用方法
利用CloudSEN12+数据集进行云检测研究,需遵循其特定的数据访问与处理流程。用户可通过HuggingFace平台或ScienceDataBank仓库获取数据,其中HuggingFace版本采用云优化存储格式,支持无需完整下载的流式数据检查。推荐使用tacoreader库进行数据加载,该库提供了简洁的接口来读取L1C或L2A级别的影像及其对应标签。典型的使用范例包括加载指定样本、提取多光谱波段数据以及可视化影像与标签。数据集已划分为训练、验证与测试子集,便于直接用于监督学习模型的训练与评估。研究人员还可利用附带的演示代码,评估基于该数据集训练的模型在硬度与可信度指标上的表现,从而深入分析模型性能与数据特性之间的关联。
背景与挑战
背景概述
遥感影像云检测是地球观测领域的一项关键技术,旨在精确识别卫星图像中的云层及其阴影,以提升地表信息提取的准确性。CloudSEN12+数据集由西班牙瓦伦西亚大学图像与信号处理研究组于2024年主导构建,并得到欧洲空间局的支持。该数据集作为CloudSEN12的扩展版本,通过大幅增加专家标注的像素数量,成为目前规模最大的Sentinel-2卫星云检测数据集。其核心研究聚焦于解决多云条件下遥感数据可用性的瓶颈,为深度学习模型在云与云阴影分割任务中的训练与评估提供了高质量基准,显著推动了遥感智能解译技术的发展。
当前挑战
在云检测领域,由于云层形态多变、厚度不均,且薄云与地表特征光谱相似,传统方法难以实现高精度分割。CloudSEN12+旨在应对这些复杂场景下的识别挑战,提供细粒度的“厚云”、“薄云”及“云阴影”类别标注。数据集构建过程中,专家需对海量Sentinel-2影像进行像素级标注,耗时耗力;同时,为确保标注一致性,团队对历史标签进行了全面校验与优化。此外,原始影像尺寸不规则,需通过零值填充调整为适合卷积网络处理的规格,这些步骤均对数据集的可靠性与可用性提出了较高要求。
常用场景
经典使用场景
在遥感影像分析领域,CloudSEN12+数据集作为目前规模最大的Sentinel-2卫星云与云影检测标注数据集,其经典应用场景集中于训练与评估深度学习模型进行像素级语义分割。研究者利用其高质量专家标注,能够精准区分清晰地表、厚云、薄云及云影等类别,为自动化云检测算法提供了坚实的基准数据支撑。该数据集通过提供多光谱波段信息与精细化标签,使得模型能够学习复杂大气条件下的云层特征,显著提升了遥感影像预处理的质量与效率。
解决学术问题
CloudSEN12+数据集有效解决了遥感科学中云遮挡干扰地表信息提取的核心难题。通过提供大规模、高精度的像素级标注,该数据集支持学术界深入探究云与云影的光谱与空间特性,促进了基于深度学习的云检测方法的发展。其意义在于为模型泛化能力评估提供了统一标准,推动了云检测算法从传统阈值方法向数据驱动范式的转变,对提升全球地表监测数据的可用性与可靠性产生了深远影响。
衍生相关工作
围绕CloudSEN12+数据集,已衍生出一系列经典的云检测算法研究。例如,基于U-Net与MobileNetV2等架构的语义分割模型在该数据集上进行了广泛的性能验证与优化。这些工作不仅探索了多光谱特征融合与注意力机制在云检测中的有效性,还推动了弱监督学习在遥感领域的应用,例如利用数据集中提供的涂鸦标注开发半自动标注工具,进一步降低了大规模遥感数据标注的成本与门槛。
以上内容由遇见数据集搜集并总结生成



