csaybar/CloudSEN12-nolabel
收藏Hugging Face2023-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/csaybar/CloudSEN12-nolabel
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-4.0
---
# **CloudSEN12 NOLABEL**
## **A Benchmark Dataset for Cloud Semantic Understanding**

CloudSEN12 is a LARGE dataset (~1 TB) for cloud semantic understanding that consists of 49,400 image patches (IP) that are
evenly spread throughout all continents except Antarctica. Each IP covers 5090 x 5090 meters and contains data from Sentinel-2
levels 1C and 2A, hand-crafted annotations of thick and thin clouds and cloud shadows, Sentinel-1 Synthetic Aperture Radar (SAR),
digital elevation model, surface water occurrence, land cover classes, and cloud mask results from six cutting-edge
cloud detection algorithms.
CloudSEN12 is designed to support both weakly and self-/semi-supervised learning strategies by including three distinct forms of
hand-crafted labeling data: high-quality, scribble and no-annotation. For more details on how we created the dataset see our
paper.
Ready to start using **[CloudSEN12](https://cloudsen12.github.io/)**?
**[Download Dataset](https://cloudsen12.github.io/download.html)**
**[Paper - Scientific Data](https://www.nature.com/articles/s41597-022-01878-2)**
**[Inference on a new S2 image](https://colab.research.google.com/github/cloudsen12/examples/blob/master/example02.ipynb)**
**[Enter to cloudApp](https://github.com/cloudsen12/CloudApp)**
**[CloudSEN12 in Google Earth Engine](https://gee-community-catalog.org/projects/cloudsen12/)**
<br>
### **Description**
<br>
| File | Name | Scale | Wavelength | Description | Datatype |
|---------------|-----------------|--------|------------------------------|------------------------------------------------------------------------------------------------------|----------|
| L1C_ & L2A_ | B1 | 0.0001 | 443.9nm (S2A) / 442.3nm (S2B)| Aerosols. | np.int16 |
| | B2 | 0.0001 | 496.6nm (S2A) / 492.1nm (S2B)| Blue. | np.int16 |
| | B3 | 0.0001 | 560nm (S2A) / 559nm (S2B) | Green. | np.int16 |
| | B4 | 0.0001 | 664.5nm (S2A) / 665nm (S2B) | Red. | np.int16 |
| | B5 | 0.0001 | 703.9nm (S2A) / 703.8nm (S2B)| Red Edge 1. | np.int16 |
| | B6 | 0.0001 | 740.2nm (S2A) / 739.1nm (S2B)| Red Edge 2. | np.int16 |
| | B7 | 0.0001 | 782.5nm (S2A) / 779.7nm (S2B)| Red Edge 3. | np.int16 |
| | B8 | 0.0001 | 835.1nm (S2A) / 833nm (S2B) | NIR. | np.int16 |
| | B8A | 0.0001 | 864.8nm (S2A) / 864nm (S2B) | Red Edge 4. | np.int16 |
| | B9 | 0.0001 | 945nm (S2A) / 943.2nm (S2B) | Water vapor. | np.int16 |
| | B11 | 0.0001 | 1613.7nm (S2A) / 1610.4nm (S2B)| SWIR 1. | np.int16 |
| | B12 | 0.0001 | 2202.4nm (S2A) / 2185.7nm (S2B)| SWIR 2. | np.int16 |
| L1C_ | B10 | 0.0001 | 1373.5nm (S2A) / 1376.9nm (S2B)| Cirrus. | np.int16 |
| L2A_ | AOT | 0.001 | - | Aerosol Optical Thickness. | np.int16 |
| | WVP | 0.001 | - | Water Vapor Pressure. | np.int16 |
| | TCI_R | 1 | - | True Color Image, Red. | np.int16 |
| | TCI_G | 1 | - | True Color Image, Green. | np.int16 |
| | TCI_B | 1 | - | True Color Image, Blue. | np.int16 |
| S1_ | VV | 1 | 5.405GHz | Dual-band cross-polarization, vertical transmit/horizontal receive. |np.float32|
| | VH | 1 | 5.405GHz | Single co-polarization, vertical transmit/vertical receive. |np.float32|
| | angle | 1 | - | Incidence angle generated by interpolating the ‘incidenceAngle’ property. |np.float32|
| EXTRA_ | CDI | 0.0001 | - | Cloud Displacement Index. | np.int16 |
| | Shwdirection | 0.01 | - | Azimuth. Values range from 0°- 360°. | np.int16 |
| | elevation | 1 | - | Elevation in meters. Obtained from MERIT Hydro datasets. | np.int16 |
| | ocurrence | 1 | - | JRC Global Surface Water. The frequency with which water was present. | np.int16 |
| | LC100 | 1 | - | Copernicus land cover product. CGLS-LC100 Collection 3. | np.int16 |
| | LC10 | 1 | - | ESA WorldCover 10m v100 product. | np.int16 |
| LABEL_ | fmask | 1 | - | Fmask4.0 cloud masking. | np.int16 |
| | QA60 | 1 | - | SEN2 Level-1C cloud mask. | np.int8 |
| | s2cloudless | 1 | - | sen2cloudless results. | np.int8 |
| | sen2cor | 1 | - | Scene Classification band. Obtained from SEN2 level 2A. | np.int8 |
| | cd_fcnn_rgbi | 1 | - | López-Puigdollers et al. results based on RGBI bands. | np.int8 |
| |cd_fcnn_rgbi_swir| 1 | - | López-Puigdollers et al. results based on RGBISWIR bands. | np.int8 |
| | kappamask_L1C | 1 | - | KappaMask results using SEN2 level L1C as input. | np.int8 |
| | kappamask_L2A | 1 | - | KappaMask results using SEN2 level L2A as input. | np.int8 |
| | manual_hq | 1 | | High-quality pixel-wise manual annotation. | np.int8 |
| | manual_sc | 1 | | Scribble manual annotation. | np.int8 |
<br>
### **Label Description**
| **CloudSEN12** | **KappaMask** | **Sen2Cor** | **Fmask** | **s2cloudless** | **CD-FCNN** | **QA60** |
|------------------|------------------|-------------------------|-----------------|-----------------------|---------------------|--------------------|
| 0 Clear | 1 Clear | 4 Vegetation | 0 Clear land | 0 Clear | 0 Clear | 0 Clear |
| | | 2 Dark area pixels | 1 Clear water | | | |
| | | 5 Bare Soils | 3 Snow | | | |
| | | 6 Water | | | | |
| | | 11 Snow | | | | |
| 1 Thick cloud | 4 Cloud | 8 Cloud medium probability | 4 Cloud | 1 Cloud | 1 Cloud | 1024 Opaque cloud |
| | | 9 Cloud high probability | | | | |
| 2 Thin cloud | 3 Semi-transparent cloud | 10 Thin cirrus | | | | 2048 Cirrus cloud |
| 3 Cloud shadow | 2 Cloud shadow | 3 Cloud shadows | 2 Cloud shadow | | | |
<br>
### **np.memmap shape information**
<br>
**cloudfree (0\%) shape: (5880, 512, 512)**
<br>
**almostclear (0-25 \%) shape: (5880, 512, 512)**
<br>
**lowcloudy (25-45 \%) shape: (5880, 512, 512)**
<br>
**midcloudy (45-65 \%) shape: (5880, 512, 512)**
<br>
**cloudy (65 > \%) shape: (5880, 512, 512)**
<br>
### **Example**
<br>
```py
import numpy as np
# Read high-quality train
cloudfree_shape = (5880, 512, 512)
B4X = np.memmap('cloudfree/L1C_B04.dat', dtype='int16', mode='r', shape=cloudfree_shape)
y = np.memmap('cloudfree/manual_hq.dat', dtype='int8', mode='r', shape=cloudfree_shape)
# Read high-quality val
almostclear_shape = (5880, 512, 512)
B4X = np.memmap('almostclear/L1C_B04.dat', dtype='int16', mode='r', shape=almostclear_shape)
y = np.memmap('almostclear/kappamask_L1C.dat', dtype='int8', mode='r', shape=almostclear_shape)
# Read high-quality test
midcloudy_shape = (5880, 512, 512)
B4X = np.memmap('midcloudy/L1C_B04.dat', dtype='int16', mode='r', shape=midcloudy_shape)
y = np.memmap('midcloudy/kappamask_L1C.dat', dtype='int8', mode='r', shape=midcloudy_shape)
```
<br>
This work has been partially supported by the Spanish Ministry of Science and Innovation project
PID2019-109026RB-I00 (MINECO-ERDF) and the Austrian Space Applications Programme within the
**[SemantiX project](https://austria-in-space.at/en/projects/2019/semantix.php)**.
提供机构:
csaybar
原始信息汇总
数据集概述
数据集名称
CloudSEN12 NOLABEL
数据集描述
CloudSEN12是一个用于云语义理解的大型基准数据集,包含约1TB的数据,由49,400个图像块组成,这些图像块均匀分布在全球除南极洲以外的所有大陆。每个图像块覆盖5090 x 5090米,包含来自Sentinel-2的1C和2A级数据、手工标注的厚云和薄云及云影、Sentinel-1合成孔径雷达(SAR)、数字高程模型、地表水出现频率、土地覆盖类别以及六种尖端云检测算法的云掩码结果。
数据集内容
- 图像块数量:49,400
- 覆盖范围:全球除南极洲外所有大陆
- 每个图像块大小:5090 x 5090米
- 包含数据类型:
- Sentinel-2 1C和2A级数据
- 手工标注的厚云、薄云和云影
- Sentinel-1 SAR
- 数字高程模型
- 地表水出现频率
- 土地覆盖类别
- 六种云检测算法的云掩码结果
数据集用途
支持弱监督、自监督和半监督学习策略,包含三种不同形式的手工标注数据:高质量、涂鸦和无标注。
数据集文件详情
- 文件类型:L1C_、L2A_、S1_、EXTRA_、LABEL_
- 数据类型:np.int16、np.float32、np.int8
- 波长范围:443.9nm至2202.4nm
- 描述:包括大气、地表、水体、云和阴影等多种信息
标签描述
- 类别:清晰、厚云、薄云、云影
- 标签系统:包括CloudSEN12、KappaMask、Sen2Cor、Fmask、s2cloudless、CD-FCNN、QA60
np.memmap形状信息
- cloudfree:(5880, 512, 512)
- almostclear:(5880, 512, 512)
- lowcloudy:(5880, 512, 512)
- midcloudy:(5880, 512, 512)
- cloudy:(5880, 512, 512)
数据集下载
可通过CloudSEN12网站下载。
搜集汇总
数据集介绍

构建方式
在遥感科学领域,云层检测与语义理解是提升卫星影像分析精度的关键挑战。CloudSEN12-nolabel数据集的构建依托于Sentinel-2卫星的L1C和L2A级别数据,覆盖全球除南极洲外的各大洲,精心选取了49,400个图像斑块,每个斑块对应5090米×5090米的地表区域。数据整合了多源信息,包括Sentinel-1合成孔径雷达影像、数字高程模型、地表水发生频率、土地覆盖分类以及六种前沿云检测算法的结果。通过手工标注厚云、薄云和云阴影,并设计高质量、涂鸦和无标注三种标签形式,该数据集支持弱监督与自监督学习策略,为云语义理解提供了坚实的实证基础。
特点
该数据集以其大规模与多模态特性脱颖而出,总体积约1TB,包含丰富的光谱与空间信息。Sentinel-2数据涵盖13个光谱波段,从气溶胶到短波红外,辅以Sentinel-1的VV和VH极化数据,以及地形和水文衍生变量。数据集特别提供了多种云掩模算法的输出,如Fmask、Sen2Cor和s2cloudless,便于比较与验证。图像斑块根据云覆盖比例分为五类,从无云到高云覆盖,每类包含5880个512×512像素的样本,这种结构化设计有助于模型在不同云况下的泛化能力评估。
使用方法
研究人员可通过HuggingFace平台或官方下载链接获取数据集,利用NumPy的memmap功能高效读取大型二进制文件。数据按云覆盖类别组织,用户可加载特定波段的遥感影像及对应的标签文件,例如手动高质量标注或算法生成的云掩模。数据集支持L1C和L2A级别的时序分析,并可通过Google Earth Engine或配套的Colab笔记本进行在线推理与可视化。这种灵活的使用方式便于开展云检测、土地覆盖分类及多传感器融合等遥感应用研究。
背景与挑战
背景概述
遥感影像云检测是地球观测领域的关键任务,对地表覆盖分析、气候变化研究及灾害监测具有深远影响。CloudSEN12数据集由西班牙与奥地利研究团队于2022年联合构建,旨在为云语义理解提供大规模基准数据。该数据集整合了哨兵二号多光谱影像、哨兵一号合成孔径雷达数据、数字高程模型及六种前沿云检测算法的结果,覆盖全球除南极洲外的各大洲,共计包含四万九千四百个图像斑块。其核心研究问题在于解决传统云检测方法在薄云、云阴影及复杂地表条件下的识别局限性,推动了弱监督与自监督学习在遥感领域的应用,显著提升了云掩模生成的精度与鲁棒性。
当前挑战
在云检测领域,准确区分薄云、厚云及云阴影仍是重大挑战,尤其在植被茂密或冰雪覆盖区域,光谱特征易与云层混淆。CloudSEN12构建过程中面临多重困难:数据采集需协调哨兵一号与二号的多时相、多分辨率影像,并进行严格的大气校正与几何配准;手工标注需处理海量高分辨率影像,确保厚云、薄云及阴影标签的一致性;此外,数据集规模达TB级别,存储、传输与处理均对计算基础设施提出极高要求。这些挑战共同凸显了大规模遥感数据集在质量控制、标注效率与可访问性方面的复杂性。
常用场景
经典使用场景
在遥感影像分析领域,云层遮挡是影响地表信息提取精度的关键挑战。CloudSEN12数据集通过整合Sentinel-2多光谱影像、Sentinel-1合成孔径雷达数据及多种辅助信息,为云语义理解提供了大规模基准。其经典使用场景聚焦于开发先进的云检测与分割算法,研究人员利用该数据集的高质量手动标注、涂鸦标注及无标注数据,训练深度学习模型以精确识别厚云、薄云及云阴影,从而提升遥感影像的可用性。
实际应用
在实际应用中,CloudSEN12数据集支撑了农业监测、环境评估及灾害响应等多个领域。例如,在精准农业中,清除云遮挡的卫星影像有助于作物健康分析;在气候变化研究中,云阴影识别可优化地表温度反演。数据集提供的数字高程模型、地表水发生频率及土地覆盖类别等辅助数据,进一步增强了其在生态建模、水资源管理中的实用价值,为决策支持系统提供关键输入。
衍生相关工作
基于CloudSEN12数据集,已衍生出多项经典研究工作。例如,KappaMask算法利用其多源数据优化了云检测精度;López-Puigdollers等人开发的CD-FCNN模型通过RGBI和RGBISWIR波段实现了高效云分割。这些工作不仅验证了数据集的可靠性,还推动了云语义理解技术的演进,相关成果已集成至Google Earth Engine等平台,促进了遥感社区的协作与创新。
以上内容由遇见数据集搜集并总结生成



