SW and QTPL datasets

Name: SW and QTPL datasets
Creator: 青海大学计算机技术与应用系, 清华大学计算机科学与技术系
Published: 2024-03-31 20:39:48
License: 暂无描述

arXiv2024-03-31 更新2024-07-31 收录

下载链接：

https://github.com/BastianChen/LEPrompter

下载链接

链接失效反馈

官方服务：

资源简介：

本研究涉及的数据集包括SW和QTPL，由青海大学和清华大学联合创建，用于从遥感图像中自动提取湖泊。SW数据集包含17,596张256x256像素的图像，而QTPL数据集包含6,773张相同大小的图像。这些数据集通过密度聚类算法DBSCAN和形态学操作进行处理，以创建包含点、框和掩码提示的基准数据集，旨在提高模型对湖泊特征的学习能力，减少模型学习难度，并应用于监测气候变化中的湖泊提取任务。

The datasets involved in this study are SW and QTPL, jointly developed by Qinghai University and Tsinghua University for automatic lake extraction from remote sensing imagery. The SW dataset comprises 17,596 images with a resolution of 256×256 pixels, while the QTPL dataset contains 6,773 images of the identical resolution. These datasets are processed using the density-based spatial clustering algorithm DBSCAN and morphological operations to build a benchmark dataset containing point, bounding box, and mask prompts, with the objectives of enhancing the model's learning of lake features, reducing the model's training difficulty, and supporting lake extraction tasks for climate change monitoring.

提供机构：

青海大学计算机技术与应用系, 清华大学计算机科学与技术系

创建时间：

2023-08-16

原始信息汇总

数据集概述

数据集准备

分割数据集

SW数据集：可免费下载于这里。
QTPL数据集：可免费下载于这里。
CVC-ClinicDB数据集：可免费下载于这里。
ISIC2018数据集：可免费下载于这里。

示例：分割Surface Water数据集： python python tools/data_split.py --dataset_type sw --dataset_path /path/to/your/surface_water/train_data --save_path /path/to/save/dataset

创建提示数据集

提示数据集的结构如下：

SW or QTPL prompt dataset ├── annotations │ ├── training │ └── validation ├── binary_annotations │ ├── training │ └── validation ├── images
│ ├── training │ └── validation └── prompts
└── training

示例：创建Surface Water Prompt Dataset： python python tools/gen_prompt_datasets.py --dataset_path /path/to/your/surface_water/

搜集汇总

数据集介绍

构建方式

在遥感影像湖泊提取领域，SW与QTPL数据集的构建采用了形态学操作与聚类算法相结合的创新方法。基于原始标注数据，研究团队运用DBSCAN密度聚类算法识别湖泊像素分布，并通过腐蚀、膨胀等形态学变换生成点、框、掩码三类提示信息。具体而言，点提示通过随机采样或计算质心邻近点生成；框提示依据像素分布边界确定外接矩形；掩码提示则通过像素填充与轮廓提取技术构建填充与未填充两种掩码形态。该构建流程系统模拟了人工标注习惯，形成了与原始训练集规模匹配的五类提示数据集。

特点

该数据集的核心特征在于其多层次提示结构与轻量化增强机制。数据集包含点、框、掩码三类共五种提示类型，其中点提示细分为随机点与中心点两种分布模式，掩码提示则涵盖填充与未填充两种空间表达。这种设计有效模拟了不同粒度的人工先验信息，为模型提供了从粗略定位到精细轮廓的多尺度监督信号。值得注意的是，所有提示数据均源自原始标注的真值图，通过形态学变换生成，既保留了地理空间的真实性，又避免了引入额外噪声。数据集的构建充分考虑了湖泊形态的多样性与遥感影像的复杂背景，为模型学习提供了结构化引导。

使用方法

该数据集的使用遵循两阶段训练框架，在训练阶段集成提示增强机制，在推理阶段保持轻量化部署。具体而言，在训练初期采用提示增强阶段，将点、框、掩码等提示信息通过轻量级提示编码器转换为稀疏与稠密提示令牌，并与视觉编码器提取的图像嵌入进行跨注意力融合，引导模型学习湖泊特征。当训练达到预设步数阈值后，系统自动切换至无提示训练阶段，使模型逐步脱离对提示信息的依赖。在推理部署时，仅需使用原始湖泊提取模型，无需加载提示编码器与解码器模块，实现了零参数与计算开销增长。这种设计既提升了模型精度，又保证了推理效率，为遥感影像自动化解译提供了实用化解决方案。

背景与挑战

背景概述

SW与QTPL数据集作为遥感影像湖泊提取领域的关键基准，由青海大学与清华大学的研究团队于2024年构建并公开。该数据集旨在应对全球气候变化背景下湖泊动态监测的迫切需求，通过高分辨率遥感影像为深度学习模型提供精准的语义分割标注。其核心研究问题聚焦于如何从复杂地貌背景中准确识别湖泊边界，尤其针对青藏高原等区域湖泊形态多样、光谱特征易与冰川雪地混淆的挑战。数据集的建立显著推动了湖泊自动提取算法的发展，为环境遥感与水文研究提供了可靠的数据支撑。

当前挑战

该数据集所针对的湖泊提取任务面临多重挑战：湖泊形态具有高度异质性，其边界常与山区、冰川等地物交织，导致上下文语义模糊；遥感影像中存在噪声干扰，如云层覆盖、阴影及传感器误差，影响特征学习的稳定性。在数据集构建过程中，研究人员需克服标注一致性难题——湖泊边缘的精细标注依赖专业地理知识，且高原湖泊的季节性变化增加了真实标签的获取难度。此外，原始多光谱数据向有效训练样本的转化需平衡空间分辨率与计算成本，避免信息丢失或引入偏差。

常用场景

经典使用场景

在遥感影像分析领域，SW和QTPL数据集为湖泊水体提取任务提供了标准化的评估基准。该数据集通过高分辨率RGB影像与精确标注的湖泊掩膜，构建了从复杂地貌背景中识别水体的典型场景。研究者利用这些数据训练深度学习模型，使其能够适应高原湖泊形态多变、光谱特征相似以及背景干扰显著等现实挑战，为自动化地理信息提取奠定了数据基础。

解决学术问题

该数据集有效解决了遥感影像语义分割中因湖泊形态异质性高、类内差异大导致的特征学习困难问题。通过提供多尺度、多背景的标注样本，缓解了模型在复杂地形（如冰川、山脉）干扰下的过拟合现象。其构建的提示增强机制为弱监督学习提供了新范式，显著提升了模型在有限标注下的泛化能力，推动了地理空间智能向更精细、更鲁棒的方向发展。

衍生相关工作

围绕该数据集衍生的经典工作包括LEFormer混合架构、MSLWENet多尺度网络以及HA-Net注意力模型等。这些研究通过引入Transformer全局建模、深度可分离卷积轻量化设计及混合尺度特征融合，持续优化湖泊提取的精度与效率。后续工作如RSPrompter进一步将提示学习机制扩展至通用遥感实例分割，形成了以数据增强为核心的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集