five

csaybar/CloudSEN12-nolabel

收藏
Hugging Face2023-04-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/csaybar/CloudSEN12-nolabel
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-nc-4.0 --- # **CloudSEN12 NOLABEL** ## **A Benchmark Dataset for Cloud Semantic Understanding** ![CloudSEN12 Images](https://cloudsen12.github.io/thumbnails/cloudsen12.gif) CloudSEN12 is a LARGE dataset (~1 TB) for cloud semantic understanding that consists of 49,400 image patches (IP) that are evenly spread throughout all continents except Antarctica. Each IP covers 5090 x 5090 meters and contains data from Sentinel-2 levels 1C and 2A, hand-crafted annotations of thick and thin clouds and cloud shadows, Sentinel-1 Synthetic Aperture Radar (SAR), digital elevation model, surface water occurrence, land cover classes, and cloud mask results from six cutting-edge cloud detection algorithms. CloudSEN12 is designed to support both weakly and self-/semi-supervised learning strategies by including three distinct forms of hand-crafted labeling data: high-quality, scribble and no-annotation. For more details on how we created the dataset see our paper. Ready to start using **[CloudSEN12](https://cloudsen12.github.io/)**? **[Download Dataset](https://cloudsen12.github.io/download.html)** **[Paper - Scientific Data](https://www.nature.com/articles/s41597-022-01878-2)** **[Inference on a new S2 image](https://colab.research.google.com/github/cloudsen12/examples/blob/master/example02.ipynb)** **[Enter to cloudApp](https://github.com/cloudsen12/CloudApp)** **[CloudSEN12 in Google Earth Engine](https://gee-community-catalog.org/projects/cloudsen12/)** <br> ### **Description** <br> | File | Name | Scale | Wavelength | Description | Datatype | |---------------|-----------------|--------|------------------------------|------------------------------------------------------------------------------------------------------|----------| | L1C_ & L2A_ | B1 | 0.0001 | 443.9nm (S2A) / 442.3nm (S2B)| Aerosols. | np.int16 | | | B2 | 0.0001 | 496.6nm (S2A) / 492.1nm (S2B)| Blue. | np.int16 | | | B3 | 0.0001 | 560nm (S2A) / 559nm (S2B) | Green. | np.int16 | | | B4 | 0.0001 | 664.5nm (S2A) / 665nm (S2B) | Red. | np.int16 | | | B5 | 0.0001 | 703.9nm (S2A) / 703.8nm (S2B)| Red Edge 1. | np.int16 | | | B6 | 0.0001 | 740.2nm (S2A) / 739.1nm (S2B)| Red Edge 2. | np.int16 | | | B7 | 0.0001 | 782.5nm (S2A) / 779.7nm (S2B)| Red Edge 3. | np.int16 | | | B8 | 0.0001 | 835.1nm (S2A) / 833nm (S2B) | NIR. | np.int16 | | | B8A | 0.0001 | 864.8nm (S2A) / 864nm (S2B) | Red Edge 4. | np.int16 | | | B9 | 0.0001 | 945nm (S2A) / 943.2nm (S2B) | Water vapor. | np.int16 | | | B11 | 0.0001 | 1613.7nm (S2A) / 1610.4nm (S2B)| SWIR 1. | np.int16 | | | B12 | 0.0001 | 2202.4nm (S2A) / 2185.7nm (S2B)| SWIR 2. | np.int16 | | L1C_ | B10 | 0.0001 | 1373.5nm (S2A) / 1376.9nm (S2B)| Cirrus. | np.int16 | | L2A_ | AOT | 0.001 | - | Aerosol Optical Thickness. | np.int16 | | | WVP | 0.001 | - | Water Vapor Pressure. | np.int16 | | | TCI_R | 1 | - | True Color Image, Red. | np.int16 | | | TCI_G | 1 | - | True Color Image, Green. | np.int16 | | | TCI_B | 1 | - | True Color Image, Blue. | np.int16 | | S1_ | VV | 1 | 5.405GHz | Dual-band cross-polarization, vertical transmit/horizontal receive. |np.float32| | | VH | 1 | 5.405GHz | Single co-polarization, vertical transmit/vertical receive. |np.float32| | | angle | 1 | - | Incidence angle generated by interpolating the ‘incidenceAngle’ property. |np.float32| | EXTRA_ | CDI | 0.0001 | - | Cloud Displacement Index. | np.int16 | | | Shwdirection | 0.01 | - | Azimuth. Values range from 0°- 360°. | np.int16 | | | elevation | 1 | - | Elevation in meters. Obtained from MERIT Hydro datasets. | np.int16 | | | ocurrence | 1 | - | JRC Global Surface Water. The frequency with which water was present. | np.int16 | | | LC100 | 1 | - | Copernicus land cover product. CGLS-LC100 Collection 3. | np.int16 | | | LC10 | 1 | - | ESA WorldCover 10m v100 product. | np.int16 | | LABEL_ | fmask | 1 | - | Fmask4.0 cloud masking. | np.int16 | | | QA60 | 1 | - | SEN2 Level-1C cloud mask. | np.int8 | | | s2cloudless | 1 | - | sen2cloudless results. | np.int8 | | | sen2cor | 1 | - | Scene Classification band. Obtained from SEN2 level 2A. | np.int8 | | | cd_fcnn_rgbi | 1 | - | López-Puigdollers et al. results based on RGBI bands. | np.int8 | | |cd_fcnn_rgbi_swir| 1 | - | López-Puigdollers et al. results based on RGBISWIR bands. | np.int8 | | | kappamask_L1C | 1 | - | KappaMask results using SEN2 level L1C as input. | np.int8 | | | kappamask_L2A | 1 | - | KappaMask results using SEN2 level L2A as input. | np.int8 | | | manual_hq | 1 | | High-quality pixel-wise manual annotation. | np.int8 | | | manual_sc | 1 | | Scribble manual annotation. | np.int8 | <br> ### **Label Description** | **CloudSEN12** | **KappaMask** | **Sen2Cor** | **Fmask** | **s2cloudless** | **CD-FCNN** | **QA60** | |------------------|------------------|-------------------------|-----------------|-----------------------|---------------------|--------------------| | 0 Clear | 1 Clear | 4 Vegetation | 0 Clear land | 0 Clear | 0 Clear | 0 Clear | | | | 2 Dark area pixels | 1 Clear water | | | | | | | 5 Bare Soils | 3 Snow | | | | | | | 6 Water | | | | | | | | 11 Snow | | | | | | 1 Thick cloud | 4 Cloud | 8 Cloud medium probability | 4 Cloud | 1 Cloud | 1 Cloud | 1024 Opaque cloud | | | | 9 Cloud high probability | | | | | | 2 Thin cloud | 3 Semi-transparent cloud | 10 Thin cirrus | | | | 2048 Cirrus cloud | | 3 Cloud shadow | 2 Cloud shadow | 3 Cloud shadows | 2 Cloud shadow | | | | <br> ### **np.memmap shape information** <br> **cloudfree (0\%) shape: (5880, 512, 512)** <br> **almostclear (0-25 \%) shape: (5880, 512, 512)** <br> **lowcloudy (25-45 \%) shape: (5880, 512, 512)** <br> **midcloudy (45-65 \%) shape: (5880, 512, 512)** <br> **cloudy (65 > \%) shape: (5880, 512, 512)** <br> ### **Example** <br> ```py import numpy as np # Read high-quality train cloudfree_shape = (5880, 512, 512) B4X = np.memmap('cloudfree/L1C_B04.dat', dtype='int16', mode='r', shape=cloudfree_shape) y = np.memmap('cloudfree/manual_hq.dat', dtype='int8', mode='r', shape=cloudfree_shape) # Read high-quality val almostclear_shape = (5880, 512, 512) B4X = np.memmap('almostclear/L1C_B04.dat', dtype='int16', mode='r', shape=almostclear_shape) y = np.memmap('almostclear/kappamask_L1C.dat', dtype='int8', mode='r', shape=almostclear_shape) # Read high-quality test midcloudy_shape = (5880, 512, 512) B4X = np.memmap('midcloudy/L1C_B04.dat', dtype='int16', mode='r', shape=midcloudy_shape) y = np.memmap('midcloudy/kappamask_L1C.dat', dtype='int8', mode='r', shape=midcloudy_shape) ``` <br> This work has been partially supported by the Spanish Ministry of Science and Innovation project PID2019-109026RB-I00 (MINECO-ERDF) and the Austrian Space Applications Programme within the **[SemantiX project](https://austria-in-space.at/en/projects/2019/semantix.php)**.
提供机构:
csaybar
原始信息汇总

数据集概述

数据集名称

CloudSEN12 NOLABEL

数据集描述

CloudSEN12是一个用于云语义理解的大型基准数据集,包含约1TB的数据,由49,400个图像块组成,这些图像块均匀分布在全球除南极洲以外的所有大陆。每个图像块覆盖5090 x 5090米,包含来自Sentinel-2的1C和2A级数据、手工标注的厚云和薄云及云影、Sentinel-1合成孔径雷达(SAR)、数字高程模型、地表水出现频率、土地覆盖类别以及六种尖端云检测算法的云掩码结果。

数据集内容

  • 图像块数量:49,400
  • 覆盖范围:全球除南极洲外所有大陆
  • 每个图像块大小:5090 x 5090米
  • 包含数据类型
    • Sentinel-2 1C和2A级数据
    • 手工标注的厚云、薄云和云影
    • Sentinel-1 SAR
    • 数字高程模型
    • 地表水出现频率
    • 土地覆盖类别
    • 六种云检测算法的云掩码结果

数据集用途

支持弱监督、自监督和半监督学习策略,包含三种不同形式的手工标注数据:高质量、涂鸦和无标注。

数据集文件详情

  • 文件类型:L1C_、L2A_、S1_、EXTRA_、LABEL_
  • 数据类型:np.int16、np.float32、np.int8
  • 波长范围:443.9nm至2202.4nm
  • 描述:包括大气、地表、水体、云和阴影等多种信息

标签描述

  • 类别:清晰、厚云、薄云、云影
  • 标签系统:包括CloudSEN12、KappaMask、Sen2Cor、Fmask、s2cloudless、CD-FCNN、QA60

np.memmap形状信息

  • cloudfree:(5880, 512, 512)
  • almostclear:(5880, 512, 512)
  • lowcloudy:(5880, 512, 512)
  • midcloudy:(5880, 512, 512)
  • cloudy:(5880, 512, 512)

数据集下载

可通过CloudSEN12网站下载。

搜集汇总
数据集介绍
main_image_url
构建方式
在遥感科学领域,云层检测与语义理解是提升卫星影像分析精度的关键挑战。CloudSEN12-nolabel数据集的构建依托于Sentinel-2卫星的L1C和L2A级别数据,覆盖全球除南极洲外的各大洲,精心选取了49,400个图像斑块,每个斑块对应5090米×5090米的地表区域。数据整合了多源信息,包括Sentinel-1合成孔径雷达影像、数字高程模型、地表水发生频率、土地覆盖分类以及六种前沿云检测算法的结果。通过手工标注厚云、薄云和云阴影,并设计高质量、涂鸦和无标注三种标签形式,该数据集支持弱监督与自监督学习策略,为云语义理解提供了坚实的实证基础。
特点
该数据集以其大规模与多模态特性脱颖而出,总体积约1TB,包含丰富的光谱与空间信息。Sentinel-2数据涵盖13个光谱波段,从气溶胶到短波红外,辅以Sentinel-1的VV和VH极化数据,以及地形和水文衍生变量。数据集特别提供了多种云掩模算法的输出,如Fmask、Sen2Cor和s2cloudless,便于比较与验证。图像斑块根据云覆盖比例分为五类,从无云到高云覆盖,每类包含5880个512×512像素的样本,这种结构化设计有助于模型在不同云况下的泛化能力评估。
使用方法
研究人员可通过HuggingFace平台或官方下载链接获取数据集,利用NumPy的memmap功能高效读取大型二进制文件。数据按云覆盖类别组织,用户可加载特定波段的遥感影像及对应的标签文件,例如手动高质量标注或算法生成的云掩模。数据集支持L1C和L2A级别的时序分析,并可通过Google Earth Engine或配套的Colab笔记本进行在线推理与可视化。这种灵活的使用方式便于开展云检测、土地覆盖分类及多传感器融合等遥感应用研究。
背景与挑战
背景概述
遥感影像云检测是地球观测领域的关键任务,对地表覆盖分析、气候变化研究及灾害监测具有深远影响。CloudSEN12数据集由西班牙与奥地利研究团队于2022年联合构建,旨在为云语义理解提供大规模基准数据。该数据集整合了哨兵二号多光谱影像、哨兵一号合成孔径雷达数据、数字高程模型及六种前沿云检测算法的结果,覆盖全球除南极洲外的各大洲,共计包含四万九千四百个图像斑块。其核心研究问题在于解决传统云检测方法在薄云、云阴影及复杂地表条件下的识别局限性,推动了弱监督与自监督学习在遥感领域的应用,显著提升了云掩模生成的精度与鲁棒性。
当前挑战
在云检测领域,准确区分薄云、厚云及云阴影仍是重大挑战,尤其在植被茂密或冰雪覆盖区域,光谱特征易与云层混淆。CloudSEN12构建过程中面临多重困难:数据采集需协调哨兵一号与二号的多时相、多分辨率影像,并进行严格的大气校正与几何配准;手工标注需处理海量高分辨率影像,确保厚云、薄云及阴影标签的一致性;此外,数据集规模达TB级别,存储、传输与处理均对计算基础设施提出极高要求。这些挑战共同凸显了大规模遥感数据集在质量控制、标注效率与可访问性方面的复杂性。
常用场景
经典使用场景
在遥感影像分析领域,云层遮挡是影响地表信息提取精度的关键挑战。CloudSEN12数据集通过整合Sentinel-2多光谱影像、Sentinel-1合成孔径雷达数据及多种辅助信息,为云语义理解提供了大规模基准。其经典使用场景聚焦于开发先进的云检测与分割算法,研究人员利用该数据集的高质量手动标注、涂鸦标注及无标注数据,训练深度学习模型以精确识别厚云、薄云及云阴影,从而提升遥感影像的可用性。
实际应用
在实际应用中,CloudSEN12数据集支撑了农业监测、环境评估及灾害响应等多个领域。例如,在精准农业中,清除云遮挡的卫星影像有助于作物健康分析;在气候变化研究中,云阴影识别可优化地表温度反演。数据集提供的数字高程模型、地表水发生频率及土地覆盖类别等辅助数据,进一步增强了其在生态建模、水资源管理中的实用价值,为决策支持系统提供关键输入。
衍生相关工作
基于CloudSEN12数据集,已衍生出多项经典研究工作。例如,KappaMask算法利用其多源数据优化了云检测精度;López-Puigdollers等人开发的CD-FCNN模型通过RGBI和RGBISWIR波段实现了高效云分割。这些工作不仅验证了数据集的可靠性,还推动了云语义理解技术的演进,相关成果已集成至Google Earth Engine等平台,促进了遥感社区的协作与创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作