CloudSEN12Plus
收藏Hugging Face2024-08-20 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/isp-uv-es/CloudSEN12Plus
下载链接
链接失效反馈官方服务:
资源简介:
CloudSEN12+ 是 [CloudSEN12](https://cloudsen12.github.io/) 数据集的重要扩展,专家审查的标签数量翻倍,使其成为迄今为止最大的 Sentinel-2 云检测数据集。所有以前的标签都经过精心策划和改进,增强了数据集的可信度。新版本采用 CC0 许可,使其进入公共领域,任何人都可以使用、修改和分发它,无需许可或归属。数据集分为 `train`、`val` 和 `test` 部分,图像已从 509x509 和 2000x2000 填充到 512x512 和 2048x2048,以确保补丁可被 32 整除。填充在图像的左侧和底部用零填充。数据存储格式包括 `.mlstac` 和 GeoTIFF。数据结构包括多个波段,如 B1(443.9 nm)到 B12(2202.4 nm),以及专家标记的图像(CM1 和 CM2)。
CloudSEN12+ is a significant extension of the [CloudSEN12](https://cloudsen12.github.io/) dataset. The number of expert-reviewed labels has been doubled, making it the largest Sentinel-2 cloud detection dataset to date. All previous labels have been carefully curated and refined to enhance the dataset's credibility. The new version is released under the CC0 license, placing it into the public domain, allowing anyone to use, modify, and distribute it without permission or attribution. The dataset is split into `train`, `val`, and `test` subsets. All images have been padded from their original resolutions of 509×509 and 2000×2000 to 512×512 and 2048×2048 respectively, ensuring that all patches are divisible by 32. Zero-padding is applied to the left and bottom sides of the images. The dataset supports storage formats including `.mlstac` and GeoTIFF. The data structure includes multiple spectral bands ranging from B1 (443.9 nm) to B12 (2202.4 nm), as well as expert-annotated images (CM1 and CM2).
创建时间:
2024-08-08
原始信息汇总
CloudSEN12+ 数据集概述
基本信息
- 许可证: CC0-1.0
- 任务类别: 图像分割
- 语言: 英语
- 标签: 地球观测, 遥感, Sentinel-2, 多光谱, 卫星, 地理空间
- 数据集名称: cloudsen12
- 数据量: 100K<n<1M
数据集描述
CloudSEN12+ 是 CloudSEN12 数据集的重要扩展,专家审查的标签数量翻倍,成为迄今为止最大的 Sentinel-2 云检测数据集。所有标签都经过精心筛选和改进,提高了数据集的可信度。该版本采用 CC0 许可证,允许任何人无需许可或归属即可使用、修改和分发。
数据组织
数据集分为 train, val, 和 test 三个部分。图像尺寸从 509x509 和 2000x2000 填充到 512x512 和 2048x2048,以确保图像块可被 32 整除。填充部分在图像的左侧和底部用零填充。GeoTIFF 文件可在 ScienceDataBank 仓库中获取。
数据结构
数据以 .mlstac 格式存储在 HuggingFace 中,以 GeoTIFF 格式存储在 ScienceDataBank 中。
| 索引 | 名称 | 比例 | 波长 | 描述 |
|---|---|---|---|---|
| 0 | B1 | 0.0001 | 443.9 nm (S2A)/442.3 nm (S2B) | 气溶胶 |
| 1 | B2 | 0.0001 | 496.6 nm (S2A)/492.1 nm (S2B) | 蓝色 |
| 2 | B3 | 0.0001 | 560 nm (S2A)/559 nm (S2B) | 绿色 |
| 3 | B4 | 0.0001 | 664.5 nm (S2A)/665 nm (S2B) | 红色 |
| 4 | B5 | 0.0001 | 703.9 nm (S2A)/703.8 nm (S2B) | 红边 1 |
| 5 | B6 | 0.0001 | 740.2 nm (S2A)/739.1 nm (S2B) | 红边 2 |
| 6 | B7 | 0.0001 | 782.5 nm (S2A)/779.7 nm (S2B) | 红边 3 |
| 7 | B8 | 0.0001 | 835.1 nm (S2A)/833 nm (S2B) | 近红外 |
| 8 | B8A | 0.0001 | 864.8 nm (S2A)/864 nm (S2B) | 红边 4 |
| 9 | B9 | 0.0001 | 945 nm (S2A)/943.2 nm (S2B) | 水蒸气 |
| 10 | B10 | 0.0001 | 1373.5 nm (S2A)/1376.9 nm (S2B) | 卷云 |
| 11 | B11 | 0.0001 | 1613.7 nm (S2A)/1610.4 nm (S2B) | SWIR 1 |
| 12 | B12 | 0.0001 | 2202.4 nm (S2A)/2185.7 nm (S2B) | SWIR 2 |
| 13 | CM1 | 1 | - | 专家标记图像 |
| 14 | CM2 | 1 | - | UnetMobV2 标记图像 |
文件夹结构
- fixed/: 包含高和涂鸦标签,已在新的版本中改进。
- demo/: 包含如何使用 CLoudSEN12 训练的模型来估计硬度和可信度指数的示例。
- images/: 包含 CloudSEN12+ 图像。
引用
即将提供。
搜集汇总
数据集介绍

构建方式
CloudSEN12+数据集是基于Sentinel-2卫星影像构建的云检测数据集,扩展了原有的CloudSEN12数据集,并对其标签进行了专家审核与优化。数据集的构建过程中,图像被从509x509和2000x2000的原始尺寸分别填充至512x512和2048x2048,以确保图像块能够被32整除。数据集分为训练集、验证集和测试集,并以GeoTIFF格式存储在ScienceDataBank中,同时支持ML-STAC格式的访问。
特点
CloudSEN12+数据集是目前最大的Sentinel-2云检测数据集,其标签数量是原数据集的两倍,且所有标签均经过专家审核与优化,确保了数据的高质量与可信度。数据集支持L2A和L1C级别的影像,并引入了时间序列支持。此外,数据集还提供了云优化属性,用户无需下载即可检查数据。数据集包含多种标签类型,如高质量标签、涂鸦标签等,覆盖了云、薄云、云阴影等多种类别。
使用方法
用户可以通过HuggingFace平台或ScienceDataBank访问CloudSEN12+数据集,并使用ML-STAC库进行数据加载与处理。数据集提供了详细的代码示例,展示了如何下载数据、可视化影像及标签。用户可以根据需求选择不同的标签类型和影像尺寸进行实验。此外,数据集还提供了模型训练的示例代码,帮助用户快速上手并应用于云检测任务中。
背景与挑战
背景概述
CloudSEN12Plus数据集是遥感领域的一项重要资源,专注于Sentinel-2卫星影像中的云检测任务。该数据集由Image & Signal Processing团队与欧洲航天局(ESA)合作开发,并于2024年发布。作为CloudSEN12数据集的扩展版本,CloudSEN12Plus不仅增加了专家标注的标签数量,还对其进行了精细化的修正,显著提升了数据的可信度。该数据集的核心研究问题在于通过多光谱影像的深度学习模型,实现对云层及其阴影的精确检测与分割。其发布为遥感图像处理、气候变化监测以及地球观测等领域提供了强有力的数据支持,推动了相关技术的进步。
当前挑战
CloudSEN12Plus数据集在构建与应用过程中面临多重挑战。首先,云检测任务本身具有复杂性,云层形态多变且与地表特征高度相似,导致精确分割难度较大。其次,数据集的构建需要处理海量的Sentinel-2影像数据,涉及多光谱波段的高效整合与标注,这对计算资源与标注质量提出了极高要求。此外,数据集的时空覆盖范围广泛,如何确保标注的一致性与准确性成为关键问题。最后,尽管数据集提供了丰富的标注类型,但如何有效利用这些标注信息训练出鲁棒的深度学习模型,仍是当前研究中的一大挑战。
常用场景
经典使用场景
CloudSEN12Plus数据集在遥感图像处理领域具有广泛的应用,尤其是在云检测和云阴影识别方面。该数据集通过提供Sentinel-2卫星的多光谱图像,结合专家标注的高质量标签,为深度学习模型提供了丰富的训练数据。研究人员可以利用这些数据进行图像分割任务,训练和验证云检测算法,从而提升遥感图像分析的精度和效率。
实际应用
在实际应用中,CloudSEN12Plus数据集被广泛用于农业监测、气候变化研究和自然灾害评估等领域。通过精确的云检测,农业专家可以更好地分析作物生长状况,气候学家能够更准确地预测天气变化,而灾害管理团队则可以更及时地评估受灾区域的情况。这些应用极大地提升了遥感技术在各个领域的实用性和影响力。
衍生相关工作
基于CloudSEN12Plus数据集,许多经典的研究工作得以展开。例如,研究人员开发了基于深度学习的云检测模型,如UnetMobV2,这些模型在云检测任务中表现出色。此外,该数据集还催生了一系列关于多光谱图像处理的研究,推动了遥感图像分析技术的发展。这些工作不仅验证了数据集的有效性,也为未来的研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成



