S2WC-RSS-like

Hugging Face2025-04-30 更新2025-05-01 收录

下载链接：

https://huggingface.co/datasets/j-h-f/S2WC-RSS-like

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于ESA WorldCover 2020 v100构建的弱监督语义分割数据集，包含约50万个图像、标签和类比例的三元组。图像为10米分辨率的128x128像素的遥感合成图像，标签为包含11个类别的WorldCover 2020 V100语义分割图，并提供了每个类别的像素比例。数据集分为训练集、验证集和测试集，比例分别为70%、10%和20%。

创建时间：

2025-04-29

原始信息汇总

S2WC-RSS-like 数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 特征提取
标签: 代码、遥感、弱监督语义分割
数据规模: 100K < n < 1M

数据来源

基于ESA WorldCover 2020 v100数据集：

引用: Zanaga, D., 等. (2021). ESA WorldCover 10 m 2020 v100. https://doi.org/10.5281/zenodo.5571936
主页: https://esa-worldcover.org/en

数据集结构

数据量: 约500,000个（图像、标签、类别比例）三元组
- 图像: 遥感复合图像，包含B4、B3、B2、B8、B11、B12、S1VV、S1VH波段，分辨率为10m，尺寸为128x128像素
- 标签: WorldCover 2020 V100语义分割图，包含11个类别
- 类别比例: 每个类别的像素占比（总和为1）

数据划分

训练集: 70%
验证集: 10%
测试集: 20%
额外信息: LMDB中包含每个划分的均值和标准差

使用说明

依赖项

PyTorch
LMDB
NumPy
SafeTensors

数据提取

bash tar -xz S2WC-RSS-like.tar.gz .

初始化数据集读取器

python import ./WCv1LMDBReader.py

初始化训练集

train_ds = WCv1LMDBReader(<path_to_lmdb_file>, split=train, output_bands=[Bands.ALL])

初始化验证集

val_ds = WCv1LMDBReader(<path_to_lmdb_file>, split=val, output_bands=[Bands.ALL])

初始化测试集

test_ds = WCv1LMDBReader(<path_to_lmdb_file>, split=test, output_bands=[Bands.ALL])

加载均值和标准差

train_mean, train_std = train_ds.get_mean_std() val_mean, val_std = val_ds.get_mean_std() test_mean, test_std = test_ds.get_mean_std()

创建PyTorch数据加载器

python from torch.utils.data import Dataloader

train_loader = utils.data.DataLoader(train_ds, batch_size=64, num_workers=4, shuffle=True) val_loader = utils.data.DataLoader(val_ds, batch_size=64, num_workers=4) test_loader = utils.data.DataLoader(test_ds, batch_size=64, num_workers=4)

搜集汇总

数据集介绍

构建方式

S2WC-RSS-like数据集基于ESA WorldCover 2020 v100数据集构建，专注于弱监督语义分割任务。该数据集包含约50万组（图像、标签、类别比例）三元组，其中图像为10米分辨率的128x128像素遥感复合影像，涵盖B4、B3、B2、B8、B11、B12、S1VV和S1VH波段。标签采用WorldCover 2020 V100的11类语义分割图，类别比例则以百分比形式记录各类像素占比。数据集按70%、10%和20%的比例划分为训练集、验证集和测试集，并额外提供各子集的均值和标准差统计信息。

特点

该数据集的核心特点在于其多波段遥感影像与精细语义标注的结合，为弱监督学习提供了丰富的数据支持。影像数据覆盖了从可见光到短波红外的多个光谱波段，以及合成孔径雷达的VV和VH极化通道，能够全面反映地物特征。标签数据采用国际通用的WorldCover分类体系，包含11个地物类别，确保了标注的权威性和可比性。数据集以LMDB格式存储，优化了大规模数据的读取效率，并附带各波段的统计参数，便于数据标准化处理。

使用方法

使用该数据集需预先安装PyTorch、LMDB、NumPy和SafeTensors等依赖库。数据加载通过专用的WCv1LMDBReader模块实现，可灵活选择训练、验证或测试子集，并指定需使用的波段组合。初始化后，可通过get_mean_std方法获取各波段的均值和标准差用于数据标准化。数据集与PyTorch的DataLoader无缝兼容，支持多进程并行加载，用户可根据需要设置批量大小和是否打乱数据顺序。这种设计既满足了研究便捷性，又充分考虑了大规模数据训练时的效率需求。

背景与挑战

背景概述

S2WC-RSS-like数据集是基于ESA WorldCover 2020 v100数据集构建的，专注于遥感影像的弱监督语义分割任务。该数据集由欧洲航天局（ESA）及其合作机构于2021年发布，旨在提供高分辨率的全球土地覆盖分类数据。数据集包含约50万组（影像、标签、类别比例）三元组，影像分辨率为10米，覆盖了11种土地覆盖类别。这一数据集的推出为遥感影像分析、环境监测和城市规划等领域提供了重要的数据支持，推动了弱监督学习方法在遥感影像处理中的应用。

当前挑战

S2WC-RSS-like数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，遥感影像的语义分割任务需要处理高分辨率影像中的复杂场景和类别不平衡问题，尤其是在弱监督条件下，如何有效利用有限的标签信息提升模型性能是一个关键挑战。在构建过程方面，数据集的创建需要整合多源遥感数据（如Sentinel-2和Sentinel-1的波段数据），并进行精确的标注和验证，这对数据预处理和质量控制提出了较高要求。此外，数据集的规模较大，存储和计算资源的优化也是构建过程中需要解决的难题。

常用场景

经典使用场景

在遥感图像分析领域，S2WC-RSS-like数据集为弱监督语义分割任务提供了标准化的研究平台。该数据集通过50万组包含多波段遥感影像、语义分割标签及类别比例的样本，支持研究者开发无需精细标注的自动化地物分类算法。128×128像素的影像块与ESA WorldCover 2020标注的11种土地覆盖类别相结合，特别适用于验证基于类激活图（CAM）等弱监督方法在复杂地表特征中的泛化能力。

衍生相关工作

基于该数据集衍生的经典研究包括多模态特征融合网络架构设计、基于类比例约束的伪标签优化方法等。部分工作通过迁移学习将模型适配至非洲、东南亚等标注稀缺区域，另有研究则利用其构建了首个面向弱监督学习的遥感语义分割基准测试平台RSS-Bench，推动了领域内算法可比性的标准化进程。

数据集最近研究