OmniCloudMask-Combined-Training-Dataset

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/NickWright/OmniCloudMask-Combined-Training-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OmniCloudMask 综合训练数据集是一个用于训练 Sentinel-2 卫星图像云和云影分割模型的多源数据集。该数据集包含 103,548 个图像-标签对（100,528 个训练样本 + 1,070 个验证样本 + 1,950 个测试样本），来自四个源数据集：CloudSEN12、Kappaset、OCM hard negative 和 OCM scribble。每个图像包含三个光谱波段（红、绿、近红外窄带），存储为 3 通道的 GeoTIFF 文件。标签包含四个语义类别（清晰、厚云、薄云、云影）和一个忽略值（无数据）。数据集以 Parquet 分片形式存储，每行包含一个图像-标签对及其元数据。该数据集支持多种任务，包括语义分割和遥感图像分析，适用于地球观测和云检测研究。

创建时间：

2026-02-27

原始信息汇总

OmniCloudMask Combined Training Dataset

数据集概述

名称：OmniCloudMask Combined Training Dataset
用途：用于在Sentinel-2卫星影像上训练云和云影分割模型的多源组合数据集。
数据量：包含 103,548 个图像-标签对（100,528 个训练 + 1,070 个验证 + 1,950 个测试）。
来源：整合了4个源数据集：CloudSEN12、Kappaset、OCM hard negative 和 OCM scribble。
应用：用于训练 OmniCloudMask模型的v4权重。

技术规格

数据格式与存储

存储格式：Parquet分片。
每行内容：一个图像-标签对。
数据列：
- subset：源子数据集名称。
- processing_level：处理级别（"L1C"、"L2A"或""）。
- image_filename：原始图像文件名。
- label_filename：原始标签文件名。
- image：原始GeoTIFF字节（3波段，uint16，LZW压缩）。
- label：原始GeoTIFF字节（1波段，uint8，LZW压缩）。

图像详情

光谱波段：每个图像包含3个波段，存储为3通道GeoTIFF。
- 通道0：B04（红），10米分辨率。
- 通道1：B03（绿），10米分辨率。
- 通道2：B8A（窄近红外），20米分辨率（上采样至10米）。
图像数据类型：uint16（标准Sentinel-2编码，反射率 × 10,000）。
标签数据类型：uint8。
地理定位：每个GeoTIFF内保留CRS和仿射变换（UTM投影，WGS84基准）。例外：Kappaset图像未地理配准。

标签类别

包含4个语义类别加一个忽略值：

0：清晰（无云或阴影）。
1：厚云（不透明云）。
2：薄云（半透明云）。
3：云影（云投射的阴影）。
99：无数据（训练时忽略）。

数据集构成与来源

主要子数据集

CloudSEN12 High
- 图像数量：16,980（8,490 L1C + 8,490 L2A）。
- 尺寸：509 x 509像素。
- 标签类型：密集、人工标注。
- 用途：仅训练。
CloudSEN12 Scribble
- 图像数量：20,000（10,000 L1C + 10,000 L2A）。
- 尺寸：509 x 509像素。
- 标签类型：稀疏涂鸦标注。
- 用途：训练、验证、测试。
CloudSEN12 2k
- 图像数量：1,694（847 L1C + 847 L2A）。
- 尺寸：2000 x 2000像素。
- 标签类型：密集、人工标注。
- 用途：训练、验证、测试。
CloudSEN12 Planetary Computer
- 图像数量：8,403（仅L2A）。
- 尺寸：509 x 509像素。
- 标签类型：密集、人工标注。
- 用途：训练。
CloudSEN12 Super Resolution Tiles
- 图像数量：33,960（仅L1C）。
- 尺寸：509 x 509像素。
- 标签类型：密集（从原始图像像素重复）。
- 用途：训练。
CloudSEN12 Super Resolution Raw
- 图像数量：8,490（仅L1C）。
- 尺寸：1018 x 1018像素。
- 标签类型：密集（从原始图像像素重复）。
- 用途：训练。
Kappaset
- 图像数量：9,250（仅L1C）。
- 尺寸：509 x 509像素。
- 标签类型：密集、人工标注。
- 用途：训练。
OCM hard negative
- 图像数量：920（仅L2A）。
- 尺寸：509 x 509像素。
- 标签类型：全零掩码（所有像素=清晰）。
- 用途：训练。
OCM scribble
- 图像数量：831（仅L2A）。
- 尺寸：509 x 509像素。
- 标签类型：稀疏涂鸦标注。
- 用途：训练。
CloudSEN12 Validation
- 图像数量：1,070（535 L1C + 535 L2A）。
- 尺寸：509 x 509像素。
- 标签类型：密集、人工标注。
- 用途：仅验证。
CloudSEN12 Test
- 图像数量：1,950（975 L1C + 975 L2A）。
- 尺寸：509 x 509像素。
- 标签类型：密集、人工标注。
- 用途：仅测试。

图像尺寸汇总

509 x 509 像素：约5.09 x 5.09公里地面覆盖。大多数数据集使用此尺寸。
1018 x 1018 像素：约5.09 x 5.09公里地面覆盖（5米分辨率）。CloudSEN12 super res raw使用。
2000 x 2000 像素：约20 x 20公里地面覆盖。CloudSEN12 2k使用。

数据集统计

图像数量与处理级别汇总

数据集	图像总数	L1C数量	L2A数量	用途
CloudSEN12 high	16,980	8,490	8,490	训练
CloudSEN12 scribble	20,000	10,000	10,000	训练
CloudSEN12 2k	1,694	847	847	训练
CloudSEN12 high planetary computer	8,403	—	8,403	训练
CloudSEN12 high super res tiles	33,960	33,960	—	训练
CloudSEN12 high super res raw	8,490	8,490	—	训练
Kappaset	9,250	9,250	—	训练
OCM Hard negative	920	—	920	训练
OCM scribble	831	—	831	训练
CloudSEN12 validation	1,070	535	535	验证
CloudSEN12 test	1,950	975	975	测试
总计	103,548	72,547	31,001

训练权重

各子数据集在训练中被赋予不同的损失权重以反映标签质量和可靠性：

CloudSEN12 high: 1.0
CloudSEN12 scribble: 1.0
CloudSEN12 2k: 0.8
CloudSEN12 high super res tiles: 1.1
CloudSEN12 high super res raw: 1.0
CloudSEN12 high planetary computer: 1.0
Kappaset: 0.2
OCM Hard negative: 0.7
OCM scribble: 1.1

许可信息

整体许可：CC-BY-4.0。
源数据集许可：
- CloudSEN12: Creative Commons Zero v1.0 Universal。
- Kappaset: Creative Commons Attribution 4.0 International。
- OCM hard negative & OCM scribble: Creative Commons Zero v1.0 Universal。

搜集汇总

数据集介绍

构建方式

在遥感影像云检测领域，数据集的构建质量直接影响模型的泛化能力。OmniCloudMask-Combined-Training-Dataset通过整合四个核心数据源——CloudSEN12、Kappaset、OCM hard negative以及OCM scribble，构建了一个大规模、多源异构的训练集合。具体而言，CloudSEN12数据以多种变体呈现，包括不同处理级别（L1C与L2A）、超分辨率增强版本以及通过Planetary Computer重新下载的影像，旨在覆盖多样的成像条件与处理流程。Kappaset数据集经过格式转换与类别重映射，而OCM hard negative则专门收集了模型易误判的困难样本。所有影像被统一处理为509×509像素的尺寸，并以Parquet分片格式存储，每个样本包含原始的GeoTIFF影像与标签二进制流，确保了地理参考信息的完整性。

特点

该数据集的核心特点在于其高度的多样性与系统性标注。影像来源于全球不同区域，时间跨度覆盖多年，并囊括了Sentinel-2卫星的L1C（大气顶层反射率）和L2A（地表反射率）两种处理级别，这为模型适应不同大气校正算法提供了坚实基础。数据标注细致区分了四类语义：晴朗地表、厚云、薄云与云阴影，并包含忽略标签以处理无效区域。标注类型兼具密集像素级标注与稀疏涂鸦标注，平衡了标注成本与信息量。此外，数据集通过引入超分辨率影像、困难负样本以及独立来源的Kappaset数据，显著增强了模型对复杂场景的判别力与鲁棒性。

使用方法

使用该数据集时，研究人员可通过Hugging Face的`datasets`库直接加载，并利用`rasterio`库从二进制流中解析GeoTIFF影像与标签。数据集已预先划分为训练集、验证集与测试集，确保了评估的公正性。在模型训练过程中，建议依据官方提供的子集权重配置损失函数，以反映不同来源数据的标注可靠性。由于影像以原始uint16格式存储，反映了Sentinel-2的标准数值范围，用户在预处理时需注意辐射定标。该数据集专为训练云与云阴影分割模型设计，尤其适用于开发如OmniCloudMask这类传感器无关的深度学习模型，以提升在多样化遥感场景中的云检测精度。

背景与挑战

背景概述

遥感影像云检测是地球观测领域的关键预处理步骤，直接影响地表参数反演与变化监测的精度。OmniCloudMask-Combined-Training-Dataset作为一项综合性多源数据集，由澳大利亚相关研究团队于2025年前后构建，旨在训练传感器无关的深度学习模型，实现Sentinel-2卫星影像中云与云阴影的精准语义分割。该数据集整合了CloudSEN12、Kappaset及定制标注数据，涵盖十万余幅影像，通过融合不同处理级别、空间分辨率及标注密度的样本，显著提升了模型在复杂大气与地表条件下的泛化能力，推动了遥感智能解译技术向实用化发展。

当前挑战

云检测任务面临多重挑战：云层形态多变、光学特性复杂，薄云与高反射地表易混淆，云阴影与暗色地物难以区分，且全球不同地域的大气与光照条件差异巨大，要求模型具备强大的跨场景适应能力。在数据集构建过程中，挑战同样突出：需协调多个来源数据的标注体系与空间分辨率，实现类别映射与尺度统一；处理不同大气校正级别（L1C与L2A）影像的辐射一致性；整合稀疏标注与密集标注数据以平衡训练效率与精度；并针对模型易误判的困难样本进行专项收集与标注，以提升模型鲁棒性。

常用场景

经典使用场景

在遥感影像分析领域，云层及其阴影的精准识别是地表观测的关键前提。OmniCloudMask-Combined-Training-Dataset作为多源Sentinel-2影像的集成数据集，其经典应用场景在于训练端到端的语义分割模型，以实现对厚云、薄云及云阴影的像素级分类。该数据集通过融合CloudSEN12、Kappaset等高质量标注数据，并引入超分辨率增强与硬负样本，为深度学习模型提供了覆盖全球多样地表与大气条件的训练样本，显著提升了模型在复杂场景下的泛化能力与鲁棒性。

实际应用

在实际业务层面，该数据集支撑的云检测模型可直接服务于大规模对地观测任务。例如，在农业监测中，精准的云掩膜能确保作物生长态势的无云影像序列分析；于灾害应急响应时，快速剔除云干扰可提升洪涝、火灾等事件的监测时效性；对于气候研究，长期、连续的云覆盖产品有助于分析云层时空变化规律。此外，其开源特性降低了遥感云处理的技术门槛，使得科研机构与商业公司能够基于此开发定制化的地表信息提取流程。

衍生相关工作

基于此数据集训练的OmniCloudMask v4模型已成为遥感云检测领域的代表性工作，相关研究成果发表于《Remote Sensing of Environment》。该工作展示了如何利用多源异构数据训练传感器无关的深度学习模型，实现了当前最优的云与云阴影识别性能。此外，数据集的设计理念——如融合不同处理级别、引入超分辨率增强与硬负样本——也为后续研究提供了重要借鉴，可能启发更多针对遥感特定挑战（如标注稀缺、域差异）的模型训练策略与数据合成方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集