jfloresf/mlstac-demo
收藏Hugging Face2023-11-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jfloresf/mlstac-demo
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
tags:
- clouds
- sentinel-2
- image-segmentation
- deep-learning
- remote-sensing
pretty_name: cloudsen12
---
# cloudsen12
***``A dataset about clouds from Sentinel-2``***
CloudSEN12 is a LARGE dataset (~1 TB) for cloud semantic understanding that consists of 49,400 image patches (IP) that are evenly spread throughout all continents except Antarctica. Each IP covers 5090 x 5090 meters and contains data from Sentinel-2 levels 1C and 2A, hand-crafted annotations of thick and thin clouds and cloud shadows, Sentinel-1 Synthetic Aperture Radar (SAR), digital elevation model, surface water occurrence, land cover classes, and cloud mask results from six cutting-edge cloud detection algorithms.
CloudSEN12 is designed to support both weakly and self-/semi-supervised learning strategies by including three distinct forms of hand-crafted labeling data: high-quality, scribble and no-annotation. For more details on how we created the dataset see our paper: CloudSEN12 - a global dataset for semantic understanding of cloud and cloud shadow in Sentinel-2.
**ML-STAC Snippet**
```python
import mlstac
secret = 'https://huggingface.co/datasets/jfloresf/mlstac-demo/resolve/main/main.json'
train_db = mlstac.load(secret, framework='torch', stream=True, device='cpu')
```
<p align="center">
<img src="header.png" />
</p>
**Sensor: Sentinel2 - MSI**
**ML-STAC Task: TensorToTensor, TensorSegmentation**
**Data raw repository: [https://cloudsen12.github.io/](https://cloudsen12.github.io/)**
**Dataset discussion: [https://github.com/IPL-UV/ML-STAC/discussions/2](https://github.com/IPL-UV/ML-STAC/discussions/2)**
**Review mean score: 5.0**
**Split_strategy: random**
**Paper: [https://www.nature.com/articles/s41597-022-01878-2](https://www.nature.com/articles/s41597-022-01878-2)**
## Data Providers
|Name|Role|URL|
| :---: | :---: | :---: |
|Image & Signal Processing|['host']|https://isp.uv.es/|
|ESA|['producer']|https://www.esa.int/|
## Curators
|Name|Organization|URL|
| :---: | :---: | :---: |
|Jair Flores|OEFA|http://jflores.github.io/|
## Reviewers
|Name|Organization|URL|Score|
| :---: | :---: | :---: | :---: |
|Cesar Aybar|Image & Signal Processing|http://csaybar.github.io/|5|
## Labels
|Name|Value|
| :---: | :---: |
|clear|0|
|thick-cloud|1|
|thin-cloud|2|
|cloud-shadow|3|
## Dimensions
### input
|Axis|Name|Description|
| :---: | :---: | :---: |
|0|C|Spectral bands|
|1|H|Height|
|2|W|Width|
### target
|Axis|Name|Description|
| :---: | :---: | :---: |
|0|C|Hand-crafted labels|
|1|H|Height|
|2|W|Width|
## Spectral Bands
|Name|Common Name|Description|Center Wavelength|Full Width Half Max|Index|
| :---: | :---: | :---: | :---: | :---: | :---: |
|B01|coastal aerosol|Band 1 - Coastal aerosol - 60m|443.5|17.0|0|
|B02|blue|Band 2 - Blue - 10m|496.5|53.0|1|
|B03|green|Band 3 - Green - 10m|560.0|34.0|2|
|B04|red|Band 4 - Red - 10m|664.5|29.0|3|
|B05|red edge 1|Band 5 - Vegetation red edge 1 - 20m|704.5|13.0|4|
|B06|red edge 2|Band 6 - Vegetation red edge 2 - 20m|740.5|13.0|5|
|B07|red edge 3|Band 7 - Vegetation red edge 3 - 20m|783.0|18.0|6|
|B08|NIR|Band 8 - Near infrared - 10m|840.0|114.0|7|
|B8A|red edge 4|Band 8A - Vegetation red edge 4 - 20m|864.5|19.0|8|
|B09|water vapor|Band 9 - Water vapor - 60m|945.0|18.0|9|
|B10|cirrus|Band 10 - Cirrus - 60m|1375.5|31.0|10|
|B11|SWIR 1|Band 11 - Shortwave infrared 1 - 20m|1613.5|89.0|11|
|B12|SWIR 2|Band 12 - Shortwave infrared 2 - 20m|2199.5|173.0|12|
---
语言:
- 英语
标签:
- 云
- Sentinel-2
- 图像分割
- 深度学习
- 遥感
规范名称:cloudsen12
---
# CloudSEN12
***``基于哨兵二号(Sentinel-2)的云数据集``***
CloudSEN12是一个超大规模(约1 TB)的云语义理解数据集,包含49400张图像块(Image Patches,IP),除南极洲外均匀分布于全球各大陆。每张图像块覆盖5090×5090米的区域,包含哨兵二号(Sentinel-2)1C级与2A级数据、人工标注的厚云、薄云及云阴影标签、哨兵一号(Sentinel-1)合成孔径雷达(Synthetic Aperture Radar, SAR)数据、数字高程模型、地表水发生频率数据、土地覆盖分类数据,以及6种前沿云检测算法生成的云掩膜结果。
CloudSEN12旨在支持弱监督学习以及自/半监督学习策略,其包含三种不同形式的人工标注数据:高质量标注、涂鸦标注(scribble)以及无标注数据。如需了解数据集构建的更多细节,请参阅我们的论文:《CloudSEN12——面向哨兵二号(Sentinel-2)影像中云和云阴影语义理解的全球数据集》。
**ML-STAC 代码示例**
python
import mlstac
secret = 'https://huggingface.co/datasets/jfloresf/mlstac-demo/resolve/main/main.json'
train_db = mlstac.load(secret, framework='torch', stream=True, device='cpu')
<p align="center">
<img src="header.png" />
</p>
**传感器:Sentinel2 - 多光谱成像仪(Multi-Spectral Instrument, MSI)**
**ML-STAC 任务:TensorToTensor、张量分割**
**原始数据仓库:[https://cloudsen12.github.io/](https://cloudsen12.github.io/)**
**数据集讨论区:[https://github.com/IPL-UV/ML-STAC/discussions/2](https://github.com/IPL-UV/ML-STAC/discussions/2)**
**评审平均得分:5.0**
**划分策略:随机划分**
**论文:[https://www.nature.com/articles/s41597-022-01878-2](https://www.nature.com/articles/s41597-022-01878-2)**
## 数据提供方
|名称|角色|URL|
| :---: | :---: | :---: |
|图像与信号处理实验室(Image & Signal Processing)|['主办方']|https://isp.uv.es/|
|欧空局(ESA)|['出品方']|https://www.esa.int/|
## 数据集策展人
|名称|机构|URL|
| :---: | :---: | :---: |
|Jair Flores|OEFA|http://jflores.github.io/|
## 评审专家
|名称|机构|URL|得分|
| :---: | :---: | :---: | :---: |
|Cesar Aybar|图像与信号处理实验室|http://csaybar.github.io/|5|
## 标签
|名称|数值|
| :---: | :---: |
|晴空(clear)|0|
|厚云(thick-cloud)|1|
|薄云(thin-cloud)|2|
|云阴影(cloud-shadow)|3|
## 数据维度
### 输入数据
|轴序号|名称|描述|
| :---: | :---: | :---: |
|0|C|光谱波段|
|1|H|高度|
|2|W|宽度|
### 目标数据
|轴序号|名称|描述|
| :---: | :---: | :---: |
|0|C|人工标注标签|
|1|H|高度|
|2|W|宽度|
## 光谱波段
|波段名称|通用名称|描述|中心波长|半高全宽|索引|
| :---: | :---: | :---: | :---: | :---: | :---: |
|B01|海岸气溶胶波段|波段1 - 海岸气溶胶波段 - 分辨率60m|443.5nm|17.0nm|0|
|B02|蓝光波段|波段2 - 蓝光波段 - 分辨率10m|496.5nm|53.0nm|1|
|B03|绿光波段|波段3 - 绿光波段 - 分辨率10m|560.0nm|34.0nm|2|
|B04|红光波段|波段4 - 红光波段 - 分辨率10m|664.5nm|29.0nm|3|
|B05|植被红边1波段|波段5 - 植被红边1波段 - 分辨率20m|704.5nm|13.0nm|4|
|B06|植被红边2波段|波段6 - 植被红边2波段 - 分辨率20m|740.5nm|13.0nm|5|
|B07|植被红边3波段|波段7 - 植被红边3波段 - 分辨率20m|783.0nm|18.0nm|6|
|B08|近红外波段|波段8 - 近红外波段 - 分辨率10m|840.0nm|114.0nm|7|
|B8A|植被红边4波段|波段8A - 植被红边4波段 - 分辨率20m|864.5nm|19.0nm|8|
|B09|水汽波段|波段9 - 水汽波段 - 分辨率60m|945.0nm|18.0nm|9|
|B10|卷云波段|波段10 - 卷云波段 - 分辨率60m|1375.5nm|31.0nm|10|
|B11|短波红外1波段|波段11 - 短波红外1波段 - 分辨率20m|1613.5nm|89.0nm|11|
|B12|短波红外2波段|波段12 - 短波红外2波段 - 分辨率20m|2199.5nm|173.0nm|12|
提供机构:
jfloresf
原始信息汇总
cloudsen12
概述
CloudSEN12是一个大型数据集(约1 TB),用于云的语义理解。该数据集包含49,400个图像块(IP),覆盖全球除南极洲以外的所有大陆。每个图像块覆盖5090 x 5090米,包含来自Sentinel-2级别1C和2A的数据,手工标注的厚云、薄云和云影,以及Sentinel-1合成孔径雷达(SAR)、数字高程模型、地表水出现、土地覆盖类别和六种尖端云检测算法的云掩膜结果。
数据集特点
- 数据来源:Sentinel-2级别1C和2A
- 数据类型:图像块
- 数据量:49,400个图像块
- 覆盖范围:全球除南极洲以外的所有大陆
- 标注类型:手工标注的厚云、薄云和云影
- 额外数据:Sentinel-1 SAR、数字高程模型、地表水出现、土地覆盖类别、云掩膜结果
数据集设计
CloudSEN12旨在支持弱监督和自/半监督学习策略,包含三种不同形式的手工标注数据:高质量标注、涂鸦标注和无标注。
数据提供者
| 名称 | 角色 | URL |
|---|---|---|
| Image & Signal Processing | 主机 | https://isp.uv.es/ |
| ESA | 生产者 | https://www.esa.int/ |
数据集标签
| 名称 | 值 |
|---|---|
| clear | 0 |
| thick-cloud | 1 |
| thin-cloud | 2 |
| cloud-shadow | 3 |
数据维度
输入
| 轴 | 名称 | 描述 |
|---|---|---|
| 0 | C | 光谱波段 |
| 1 | H | 高度 |
| 2 | W | 宽度 |
目标
| 轴 | 名称 | 描述 |
|---|---|---|
| 0 | C | 手工标注标签 |
| 1 | H | 高度 |
| 2 | W | 宽度 |
光谱波段
| 名称 | 通用名称 | 描述 | 中心波长 | 半高全宽 | 索引 |
|---|---|---|---|---|---|
| B01 | coastal aerosol | 波段1 - 沿海气溶胶 - 60m | 443.5 | 17.0 | 0 |
| B02 | blue | 波段2 - 蓝色 - 10m | 496.5 | 53.0 | 1 |
| B03 | green | 波段3 - 绿色 - 10m | 560.0 | 34.0 | 2 |
| B04 | red | 波段4 - 红色 - 10m | 664.5 | 29.0 | 3 |
| B05 | red edge 1 | 波段5 - 植被红边1 - 20m | 704.5 | 13.0 | 4 |
| B06 | red edge 2 | 波段6 - 植被红边2 - 20m | 740.5 | 13.0 | 5 |
| B07 | red edge 3 | 波段7 - 植被红边3 - 20m | 783.0 | 18.0 | 6 |
| B08 | NIR | 波段8 - 近红外 - 10m | 840.0 | 114.0 | 7 |
| B8A | red edge 4 | 波段8A - 植被红边4 - 20m | 864.5 | 19.0 | 8 |
| B09 | water vapor | 波段9 - 水汽 - 60m | 945.0 | 18.0 | 9 |
| B10 | cirrus | 波段10 - 卷云 - 60m | 1375.5 | 31.0 | 10 |
| B11 | SWIR 1 | 波段11 - 短波红外1 - 20m | 1613.5 | 89.0 | 11 |
| B12 | SWIR 2 | 波段12 - 短波红外2 - 20m | 2199.5 | 173.0 | 12 |
搜集汇总
数据集介绍

构建方式
在遥感影像分析领域,云层检测与语义理解是提升地表观测精度的关键环节。CloudSEN12数据集的构建依托于Sentinel-2卫星的L1C和L2A级别数据,覆盖全球除南极洲外的所有大陆,精心采集了49,400个尺寸为5090×5090米的图像块。这些数据块不仅整合了Sentinel-1合成孔径雷达影像、数字高程模型、地表水发生频率及土地覆盖分类信息,还融入了六种前沿云检测算法的结果。通过人工标注厚云、薄云与云阴影区域,并设计高质量、草图式及无标注三种标签形式,该数据集为弱监督与自监督学习策略提供了坚实基础,其构建过程详细记录于相关学术论文中。
特点
作为大规模遥感影像数据集,CloudSEN12以其约1TB的庞大体量脱颖而出,均衡涵盖了全球多样化的地理与气候区域。数据集的核心特点在于其多源数据融合,将光学、雷达、地形及环境变量有机结合,并辅以手工标注的云与云阴影语义标签。这些标签细分为清晰、厚云、薄云和云阴影四类,支持像素级分割任务。同时,数据集提供的三种标注形态——高质量完整标注、草图式标注及无标注样本,极大地拓展了其在半监督与自监督学习框架下的应用潜力,为云层语义理解的算法开发与评估设立了新的基准。
使用方法
为便利研究者使用,CloudSEN12数据集可通过ML-STAC工具进行高效加载与处理。用户需导入mlstac库,并指定数据集的秘密链接,即可根据需求选择深度学习框架(如PyTorch),并决定是否启用流式读取以适应不同硬件环境。数据集适用于张量到张量的转换及语义分割任务,输入维度对应多光谱波段、高度与宽度,目标维度则对应手工标注的类别信息。原始数据仓库与社区讨论链接为深入探索提供了额外资源,使得该数据集能够灵活服务于云检测模型的训练、验证与比较研究。
背景与挑战
背景概述
遥感影像云检测是地球观测领域的关键技术,对地表监测与气候变化研究具有深远影响。CloudSEN12数据集由西班牙瓦伦西亚大学图像与信号处理实验室于2022年发布,旨在通过Sentinel-2卫星影像构建全球尺度的云与云阴影语义理解基准。该数据集覆盖除南极洲外的所有大陆,包含四万九千余幅影像斑块,融合了多光谱、合成孔径雷达、数字高程模型等多源数据,并提供了高质量手工标注、涂鸦标注及无标注三种形式,为弱监督与自监督学习提供了重要支撑。其创新性设计显著推动了遥感影像自动解译技术的发展,成为云检测算法评估与优化的核心资源。
当前挑战
云检测任务面临云层形态多变、薄云与地表特征混淆、云阴影与真实地物难以区分等固有难题,对算法的泛化能力与精度提出严峻考验。在数据集构建过程中,全球范围影像采集需协调Sentinel-1/2等多卫星数据,并克服不同时相、光照与大气条件的异质性;手工标注需处理海量高分辨率影像,在薄云边缘、半透明云层等复杂场景中保持标注一致性极具挑战;此外,多模态数据对齐与大规模存储管理亦增加了技术复杂度。这些挑战共同凸显了高质量遥感数据集创建的艰巨性与学术价值。
常用场景
经典使用场景
在遥感影像分析领域,CloudSEN12数据集为云层语义理解提供了关键支持。其经典使用场景集中于训练深度学习模型,以实现对Sentinel-2卫星影像中厚云、薄云及云阴影的精确分割。通过包含49,400个全球分布的图像块,该数据集能够有效模拟不同地理和气候条件下的云层特征,为云检测算法的开发与验证奠定了坚实基础。
解决学术问题
CloudSEN12数据集解决了遥感研究中云层遮挡导致的影像信息缺失问题。通过提供手工标注的高质量标签、涂鸦标签及无标注数据,该数据集支持弱监督、自监督和半监督学习策略,推动了云检测算法在复杂场景下的泛化能力研究。其多模态数据融合,如结合Sentinel-1 SAR和数字高程模型,进一步促进了跨传感器分析与云物理特性的深入探索。
衍生相关工作
基于CloudSEN12数据集,衍生了一系列经典研究工作。这些工作主要集中在改进云分割神经网络架构,如U-Net变体和注意力机制的应用,以提升薄云与云阴影的区分精度。同时,该数据集也催生了多源数据融合方法的研究,结合光学与雷达影像,开发出更鲁棒的云检测模型,推动了遥感人工智能技术的进步。
以上内容由遇见数据集搜集并总结生成



