SSL4EO-L
收藏arXiv2023-10-22 更新2024-07-31 收录
下载链接:
https://github.com/microsoft/torchgeo
下载链接
链接失效反馈官方服务:
资源简介:
SSL4EO-L是为Landsat系列卫星设计的第一个自监督学习地球观测数据集,包含5M图像块,是历史上最大的Landsat数据集。
SSL4EO-L is the first self-supervised learning Earth Observation dataset designed for the Landsat satellite series. It contains 5 million image patches and is the largest Landsat dataset in history.
创建时间:
2023-06-16
原始信息汇总
TorchGeo 数据集概述
数据集类型
地理空间数据集和采样器
- 类型: 地理空间数据集
- 描述: 包含地理元数据的数据集,支持多种卫星数据(如Landsat 7和8)和农业数据(如Cropland Data Layer (CDL))。
- 功能: 支持数据联合(union)和交集(intersection)操作,自动处理不同坐标参考系统(CRS)和分辨率的问题。
- 采样器: 提供随机地理采样器(RandomGeoSampler),用于从大型地理空间图像中采样小图像块。
基准数据集
- 类型: 基准数据集
- 描述: 包含输入图像和目标标签的数据集,适用于图像分类、回归、语义分割、目标检测等任务。
- 示例: 包括Northwestern Polytechnical University (NWPU) VHR-10数据集。
- 功能: 支持自动下载、校验和提取数据。
预训练模型
- 描述: 支持在多光谱传感器数据上预训练的模型,采用torchvision的多权重API。
- 示例: 提供在Sentinel-2图像上预训练的ResNet-18模型。
可重复性
- 描述: 通过Lightning数据模块和训练器,简化实验设置和结果比较。
- 示例: 提供Inria Aerial Image Labeling数据集的语义分割任务的训练示例。
安装
- 方法: 推荐使用pip安装。
- 命令:
pip install torchgeo
文档
- 位置: ReadTheDocs
- 内容: 包含API文档、贡献指南和教程。
引用
- 论文: 提供了在工作中使用该软件的引用格式。
搜集汇总
数据集介绍

构建方式
SSL4EO-L数据集的构建方式采用了自我监督学习的策略,旨在解决地球观测领域中小型标签数据集的普遍问题。该数据集由来自Landsat系列卫星的图像组成,包括三个传感器和两个产品级别。构建过程中,首先从世界上10,000个人口最多的城市中随机选择一个,然后从以该城市为中心的50公里标准差高斯分布中随机选择一个264×264像素(7.92×7.92公里)的图像块。为了确保图像块之间的多样性,数据集收集了来自四个不同季节的图像,每个季节都选择在春分和秋分以及夏至和冬至周围60天窗口内的图像。此外,数据集还包含了一些云检测数据集,以及针对Landsat 4-5 TM和Landsat 7 ETM+SR传感器的机器学习基准数据集。
特点
SSL4EO-L数据集具有以下特点:1) 它是第一个专门为地球观测中的自我监督学习而设计的数据集,为Landsat系列卫星提供了前所未有的数据资源;2) 它是迄今为止最大的Landsat数据集,包含超过500万个图像块,涵盖了广泛的地理区域和季节变化;3) 数据集采用了自我监督学习方法,无需人工标注,大大降低了数据收集和处理的成本;4) 数据集包含了多个云检测数据集,以及针对不同传感器的基准数据集,为研究人员提供了丰富的实验和评估资源;5) 数据集的图像分辨率较高,能够捕捉到地面的细节信息,适用于多种地球观测任务。
使用方法
SSL4EO-L数据集的使用方法如下:1) 首先,从Hugging Face网站下载TorchGeo库,该库提供了数据集的下载和加载功能;2) 使用TorchGeo库中的数据模块加载所需的数据集,可以选择不同的传感器、产品级别和季节;3) 使用预训练的模型进行自我监督学习,可以使用SimCLR或MoCo等方法进行预训练;4) 使用微调后的模型进行下游任务,例如云检测、土地覆盖分类等;5) 使用TorchGeo库中的评估工具对模型性能进行评估,例如总体准确率和平均交并比等指标。
背景与挑战
背景概述
SSL4EO-L数据集的创建是为了解决遥感图像分析中的挑战。随着深度学习和遥感技术的兴起,研究人员发现传统的决策树和随机森林等模型在处理Landsat图像时表现不佳,这主要是因为缺乏足够大的带标签数据集和基础模型。SSL4EO-L数据集是首个专为Landsat卫星家族设计的自监督学习数据集,包含3种传感器和2种产品级别的5M图像块,是迄今为止最大的Landsat数据集。该数据集的创建由Adam J. Stewart等人于2023年10月发表在arXiv上。SSL4EO-L数据集的发布对于遥感科学领域具有重要意义,它为研究人员提供了进行自监督学习和深度学习模型预训练的强大资源,有助于推动遥感科学的发展。
当前挑战
SSL4EO-L数据集的创建和利用面临一些挑战。首先,数据集的构建过程中,需要解决如何有效地从Landsat图像中提取有用的信息,并进行预处理,以适应自监督学习的需求。其次,由于Landsat图像的分辨率较高,数据集的存储和计算成本较高,这给数据集的共享和利用带来了挑战。此外,SSL4EO-L数据集的创建也面临着数据质量和多样性的挑战,例如,数据集中可能存在云覆盖和nodata像素等问题,以及热带雨林和极地地区的数据稀缺。最后,如何有效地利用SSL4EO-L数据集进行下游任务,例如语义分割和土地覆盖分类,也是一个重要的挑战。
常用场景
经典使用场景
在地球观测领域,SSL4EO-L 数据集以其庞大的规模和多样化的图像样本,成为了自监督学习模型预训练的理想选择。该数据集涵盖了 Landsat 系列卫星的三个传感器和两个产品级别,提供了超过 500 万个图像块,为模型学习地球表面的多样性和变化提供了丰富的数据基础。通过使用 SSL4EO-L 数据集,研究人员可以训练出能够适应各种下游任务的通用模型,例如云检测、土地覆盖分类和语义分割等。这些预训练模型在保留了深度学习的强大特征提取能力的同时,也降低了模型对大量标记数据的依赖,从而加速了地球观测领域的研究进程。
实际应用
SSL4EO-L 数据集在实际应用中展现了其强大的实用价值。通过使用该数据集预训练的模型,可以实现多种地球观测任务,例如云检测、土地覆盖分类和语义分割等。这些任务在农业、林业、生态和气候变化等领域具有广泛的应用前景。例如,云检测模型可以帮助研究人员监测天气变化和自然灾害,土地覆盖分类模型可以用于监测土地使用变化和生态环境变化,语义分割模型可以用于识别不同类型的土地覆盖和植被。SSL4EO-L 数据集的应用,为地球观测领域的研究提供了新的工具和方法,有助于推动该领域的发展。
衍生相关工作
SSL4EO-L 数据集的创建,为地球观测领域的研究开辟了新的方向。基于该数据集,研究人员可以进行多种衍生工作,例如开发新的自监督学习方法、构建新的地球观测数据集和设计新的地球观测应用等。此外,SSL4EO-L 数据集还可以与其他数据集进行融合,例如 Sentinel-2 数据集和 Planet 数据集等,从而进一步提高模型训练的质量和效率。SSL4EO-L 数据集的创建,为地球观测领域的研究提供了新的机遇和挑战,有助于推动该领域的发展。
以上内容由遇见数据集搜集并总结生成



