five

SEN12MS-CR|卫星图像处理数据集|云去除数据集

收藏
github2025-03-10 更新2025-02-27 收录
卫星图像处理
云去除
下载链接:
https://github.com/G-pz/HPN-CR
下载链接
链接失效反馈
资源简介:
包含 Sentinel-2 光学图像的云图像、无云图像以及 Sentinel-1 SAR 图像的三元组
创建时间:
2025-02-19
原始信息汇总

HPN-CR数据集概述

1. 数据集基本信息

  • 名称: SEN12MS-CR
  • 用途: SAR-光学数据融合云去除研究
  • 数据类型: 包含三组数据
    • 有云的Sentinel-2光学图像
    • 无云的Sentinel-2光学图像
    • Sentinel-1 SAR图像

2. 数据集来源

3. 数据集结构

  • 划分方式: 按ROIs划分为训练集、验证集和测试集

  • 文件结构:

    ./ +-- SEN12MS-CR +-- train +-- s1 (SAR图像) +-- s2_cloudfree (无云光学图像) +-- s2_cloudy (有云光学图像) +-- data.csv +-- source_folder +-- val (同train结构) +-- test (同train结构)

  • 预处理: 需要运行SEN12MS-CR/get_images.py并重命名文件

4. 数据集获取

5. 相关研究

  • 应用模型: HPN-CR (异构并行网络)
  • 竞赛成绩: 2024年"东方航天港·星视杯"遥感图像智能处理算法竞赛Track 1第三名
AI搜集汇总
数据集介绍
main_image_url
构建方式
SEN12MS-CR数据集的构建采取了对大规模公开数据集的整合,该数据集包含云遮挡的Sentinel-2光学图像、无云的Sentinel-2光学图像以及Sentinel-1合成孔径雷达(SAR)图像的三元组。数据集通过将图像分为训练集、验证集和测试集,并参照PatrickTUM的划分方式,确保了数据集的可用性和可靠性。
特点
该数据集的特点在于其三元组结构,提供了同一地区不同传感器和不同天气条件下的图像,有助于模型的泛化能力和对复杂场景的处理。此外,数据集的规模较大,能够满足深度学习模型训练的需求。其结构化的文件组织方式也便于研究人员进行数据处理和模型评估。
使用方法
使用该数据集时,需将原始数据集文件按照训练、验证和测试的划分放置在相应的目录下,并执行提供的数据处理脚本以获取所需的图像文件。处理后的测试集可以直接下载使用。用户还需对图像进行批量重命名,以去除文件名中的标识符,最终构建出适合模型训练的文件结构。
背景与挑战
背景概述
SEN12MS-CR数据集是在遥感影像处理领域,针对云遮挡问题而构建的大规模公开数据集。该数据集由德国慕尼黑工业大学的研究团队创建于近年来,旨在支持合成孔径雷达(SAR)与光学遥感数据融合的去云研究。数据集包含了成对的Sentinel-2光学遥感图像(有云和无云版本)以及对应的Sentinel-1 SAR图像。该数据集的构建为相关领域的研究提供了宝贵的实验资源,推动了遥感图像去云技术的发展,对提高遥感数据分析的准确性和实用性具有重要影响。
当前挑战
在构建SEN12MS-CR数据集的过程中,研究团队面临了诸多挑战。首先,如何在大量遥感图像中精确识别并分割出云遮挡区域,保证数据集的质量和实用性,是一大挑战。其次,由于SAR与光学遥感图像在成像机制上的差异,如何有效融合这两种数据类型以提升去云效果,也是研究中的难点。此外,数据集的构建还需解决数据预处理、标注一致性、以及大规模数据存储和访问效率等问题。在研究领域问题方面,SEN12MS-CR数据集所面临的挑战包括如何提高去云算法的泛化能力,以及如何减少对无云区域的影响,保持图像的整体质量。
常用场景
经典使用场景
在遥感影像处理领域,SEN12MS-CR数据集因其含有高云覆盖的Sentinel-2光学影像以及与之对应的云-free影像和Sentinel-1 SAR影像,被广泛应用于云去除任务中。该数据集的典型使用场景是借助异构并行网络(HPN-CR)对光学和SAR数据进行融合,以实现有效的云去除处理,尤其是在高云量覆盖的情况下。
衍生相关工作
基于SEN12MS-CR数据集的研究衍生出了多项相关工作,包括但不限于云检测、影像融合算法改进、以及多源数据融合产品的开发。这些工作进一步扩展了数据集的应用范围,推动了遥感数据处理技术的发展。
数据集最近研究
最新研究方向
在遥感图像处理领域,针对高云覆盖场景下的有效去云技术,研究人员提出了异质并行网络(HPN-CR)架构。该架构利用SEN12MS-CR数据集进行训练,该数据集包含了Sentinel-2光学图像和Sentinel-1合成孔径雷达(SAR)图像的三元组,旨在融合光学与雷达数据以实现更精准的云遮挡去除。HPN-CR的研究对于提升遥感图像质量,尤其是在气象监测、环境变化分析等领域具有重要影响,其成果为相关领域的研究提供了新的方法和视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

Stanford Cars

Cars数据集包含196类汽车的16,185图像。数据被分成8,144训练图像和8,041测试图像,其中每个类被大致分成50-50。类别通常在品牌,型号,年份,例如2012特斯拉Model S或2012 BMW M3 coupe的级别。

OpenDataLab 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录