图卢兹高光谱数据集
收藏arXiv2024-03-25 更新2024-07-23 收录
下载链接:
https://www.toulouse-hyperspectral-data-set.com/
下载链接
链接失效反馈官方服务:
资源简介:
图卢兹高光谱数据集是由法国国家空间研究中心等机构创建,用于评估半监督和高光谱表示学习及像素级分类技术的大型基准数据集。该数据集通过高光谱传感器获取,覆盖了从0.4微米到2.5微米的广泛光谱范围,具有高空间和光谱分辨率,特别适合于城市区域的土地覆盖制图。数据集包含约380,000个标记像素,分为32个类别,用于支持机器学习模型的训练和测试。该数据集的应用领域包括城市土地覆盖分析、环境监测和资源管理,旨在解决土地覆盖分类中的数据稀缺问题。
The Toulouse Hyperspectral Dataset is a large-scale benchmark dataset created by institutions including the French National Centre for Space Studies (CNES), designed to evaluate semi-supervised learning, hyperspectral representation learning, and pixel-level classification technologies. Acquired via hyperspectral sensors, this dataset covers a wide spectral range from 0.4 μm to 2.5 μm, boasts high spatial and spectral resolution, and is particularly suitable for land cover mapping in urban areas. It contains approximately 380,000 labeled pixels divided into 32 categories, supporting the training and testing of machine learning models. Its application fields include urban land cover analysis, environmental monitoring, and resource management, and it aims to address the data scarcity problem in land cover classification tasks.
提供机构:
法国国家空间研究中心
创建时间:
2023-11-15
搜集汇总
数据集介绍

构建方式
图卢兹高光谱数据集的构建基于AI4GEO联盟和CAMCATT/AI4GEO实地考察项目,于2021年6月15日UTC时间上午11点左右,使用AisaFENIX 1K相机从Safire飞机上空1,500米的高度对法国图卢兹市进行了航空高光谱图像采集。该相机具有0.4 µm至2.5 µm的光谱范围,其中VNIR部分的分辨率为3.6 nm,SWIR部分的分辨率为7.8 nm,幅宽为1024米,地面采样距离为1米。采集的高光谱数据首先经过辐射和几何校正转换为辐射亮度图像,然后使用COCHISE大气校正算法转换为地表反射率图像。此外,还使用三个ASD光谱仪在0.4 µm至2.5 µm的范围内进行实地反射率光谱测量。这些实地测量结果用于定义土地覆盖分类体系,并通过照片解释、额外的实地考察以及外部数据帮助构建地面真实数据。
特点
图卢兹高光谱数据集的特点在于其广阔的地理覆盖范围、丰富的土地覆盖类别以及专门为半监督和无监督学习设计的标准训练/测试分割。该数据集包含了32个土地覆盖类别,分为16个不透水材料和16个透水材料,并以层次结构组织。大约有38万个像素被标记了土地覆盖类别。与传统的语义分割数据集不同,该数据集的地面真实数据是由稀疏的注释组成,即相互分离的多边形。数据集提供了8个空间上分离的分割,包括标记的训练集、未标记的训练集(包括标记池和未标记池)、验证集和测试集。这些分割确保了每个类别在训练集、验证集和测试集中的适当分布比例,以促进统计独立性和公平的评价。
使用方法
使用图卢兹高光谱数据集时,首先需要下载数据集和相应的Python库TlseHypDataSet,该库旨在方便地将数据加载到PyTorch数据加载器中。用户可以指定数据集路径和所需的图像块大小来初始化TlseHypDataSet对象。然后,可以使用DisjointDataSplit类来加载标准分割的地面真实数据,并使用torch.utils.data.DataLoader来创建训练迭代器。在模型训练过程中,用户可以从训练加载器中获取样本和标签进行迭代训练。此外,数据集还提供了土地使用分类体系、地面水平直接和漫反射辐照度以及太阳天顶角等辅助信息,以支持更全面的数据分析和模型训练。
背景与挑战
背景概述
图卢兹高光谱数据集(Toulouse Hyperspectral Data Set)是于2021年6月15日由AI4GEO联盟在法国图卢兹市上空通过AisaFENIX 1K相机获取的一组机载高光谱图像。该数据集由CNES、ONERA-DOTA、Magellium和Toulouse Mathematics Institute等机构的研究人员共同创建。该数据集的主要研究问题是如何在大规模高光谱图像中,使用极少数标记像素的情况下,评估半监督光谱表示学习和像素级分类技术的性能。该数据集的发布对于推动高光谱图像分类技术的发展具有重要意义,尤其是在解决城市地区土地覆盖制图的问题上。
当前挑战
图卢兹高光谱数据集面临的挑战主要包括:1) 所解决的领域问题:如何在大规模高光谱图像中,使用极少数标记像素的情况下,评估半监督光谱表示学习和像素级分类技术的性能;2) 构建过程中所遇到的挑战:如何确保训练集、验证集和测试集的地理分布独立,以及如何处理混合像素(即像素包含多种材料)的问题。为了应对这些挑战,研究人员在数据集的构建过程中采用了空间分离的方式,将训练集、验证集和测试集划分为不同的地理区域,并且尽可能避免混合像素的出现。此外,为了评估半监督学习的性能,研究人员还提供了标准的训练集和测试集划分,以促进可重复和公平的实验。
常用场景
经典使用场景
图卢兹高光谱数据集在土地覆盖制图方面具有重要作用,尤其是在城市区域。由于其高空间和高光谱分辨率,该数据集可以用于绘制大型城市区域的土地覆盖图。在机器学习算法中,该数据集常用于评估半监督光谱表示学习和像素级分类技术。此外,该数据集还包含标准训练和测试集,用于评估半监督学习和自监督学习算法。
实际应用
图卢兹高光谱数据集的实际应用场景包括土地覆盖制图、环境监测和城市规划等。例如,通过分析该数据集,可以识别不同类型的土地覆盖,如道路、建筑物、公园和农田等。此外,该数据集还可以用于监测城市热岛效应、土壤碳吸收和城市扩张等环境问题。城市规划师可以利用该数据集来评估城市扩张对环境的影响,并制定相应的城市规划策略。
衍生相关工作
图卢兹高光谱数据集衍生了许多相关的研究工作,主要集中在半监督学习和自监督学习算法上。例如,一些研究使用了图卢兹数据集来评估深度聚类和掩码自动编码器等自监督学习算法。此外,一些研究还使用了图卢兹数据集来评估主动学习和多标签分类等算法。这些研究工作为土地覆盖制图领域提供了新的研究思路和方法,并为实际应用提供了重要的参考。
以上内容由遇见数据集搜集并总结生成



