GreenHyperSpectra

Name: GreenHyperSpectra
Creator: Leipzig University, Germany; Mila – Québec AI Institute, Canada; McGill University, Canada; University of Salford, UK; Colorado State University, USA; University of Wisconsin, USA; Simon Fraser University, Canada; University of Freiburg, Germany; German Centre for Integrative Biodiversity Research, Germany; Helmholtz-Centre for Environmental Research, Germany
Published: 2025-07-09 20:51:46
License: 暂无描述

arXiv2025-07-09 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/Avatarr05/GreenHyperSpectra

下载链接

链接失效反馈

官方服务：

资源简介：

GreenHyperSpectra是一个大规模的多源高光谱数据集，旨在用于预训练和半监督/自监督学习。该数据集包含超过14万条植被冠层表面反射率光谱数据，跨越不同的洲、生态系统、传感器平台、空间分辨率和测量几何形状。与现有的高光谱数据集相比，GreenHyperSpectra提供了更大的预训练光谱数据量，旨在解决高光谱数据在植物性状预测中存在的标签稀缺和域偏移问题。

GreenHyperSpectra is a large-scale multi-source hyperspectral dataset developed for pre-training, semi-supervised and self-supervised learning. It includes over 140,000 vegetation canopy surface reflectance spectra, covering various continents, ecosystems, sensor platforms, spatial resolutions and measurement geometries. Compared with existing hyperspectral datasets, GreenHyperSpectra provides a larger corpus of pre-training spectral data, aiming to address the challenges of label scarcity and domain shift in hyperspectral data-based plant trait prediction.

提供机构：

Leipzig University, Germany; Mila – Québec AI Institute, Canada; McGill University, Canada; University of Salford, UK; Colorado State University, USA; University of Wisconsin, USA; Simon Fraser University, Canada; University of Freiburg, Germany; German Centre for Integrative Biodiversity Research, Germany; Helmholtz-Centre for Environmental Research, Germany

创建时间：

2025-07-09

搜集汇总

数据集介绍

构建方式

GreenHyperSpectra数据集通过整合多源高光谱数据构建而成，涵盖了来自近地、航空和航天平台的植被冠层反射光谱。数据采集跨越1992至2024年，覆盖多样化的生态系统和气候带。所有光谱数据经过统一预处理：首先将原始光谱线性插值至1nm分辨率（400-2500nm范围），随后剔除水汽吸收带（1351-1430nm, 1801-2050nm, 2451-2500nm），最后采用65nm窗口的Savitzky-Golay滤波器进行平滑处理，最终保留1721个有效波段。数据集采用分层抽样策略，确保各数据源在训练子集中保持原始比例，从而有效维持植被类型、传感器特性和采集条件的自然多样性。

特点

该数据集的核心特征体现在三个方面：多平台协同性整合了ASD FieldSpec、AVIRIS-NG等12种传感器的光谱数据；生态多样性覆盖森林、苔原等7种植被类型，样本量达14万；时空广延性包含跨越32年的全球采样。特别值得注意的是其设计的域适应挑战性，通过保留不同传感器在空间分辨率（0.4-60m）、观测几何和辐射校准等方面的固有差异，构建了真实的协变量偏移场景。数据集中未标注样本与标注样本的数量比达到17:1，为半监督学习提供了理想条件。

使用方法

使用该数据集时建议采用三阶段流程：首先利用未标注数据进行光谱表示学习（如MAE预训练），其次在标注数据上微调多输出回归模型，最后通过交叉数据集验证评估域外泛化能力。针对不同光谱范围（全波段400-2500nm或可见光-近红外400-900nm）需调整模型输入维度。实验协议推荐采用分层20折交叉验证，其中标注数据按80/20划分训练验证集。对于迁移学习任务，可结合PROSAIL-PRO辐射传输模型进行物理约束的嵌入空间优化。计算资源方面，基于Transformer的预训练需约20小时（RTX 8000显卡），而下游任务微调可在15分钟内完成。

背景与挑战

背景概述

GreenHyperSpectra是由Eya Cherif、Arthur Ouaknine、Luke A. Brown等研究人员于2025年发布的多源高光谱数据集，旨在解决全球植被功能性状预测的关键问题。该数据集由莱比锡大学地球系统科学与遥感研究所、Mila魁北克人工智能研究所等多家机构联合开发，涵盖了来自不同生态系统、传感器平台和时空尺度的超过14万条植被冠层反射光谱数据。GreenHyperSpectra的创建背景源于传统野外采样方法在生态尺度上的局限性，以及机器学习在高光谱遥感数据中预测植物性状时面临的标签稀缺和领域偏移挑战。该数据集通过整合近地、机载和星载平台的多源光谱数据，为半监督和自监督学习方法提供了基准测试平台，显著推动了植被功能性状遥感反演领域的研究进展。

当前挑战

GreenHyperSpectra数据集面临的核心挑战主要体现在两个方面：首先，在解决植被功能性状预测这一领域问题时，面临标签数据稀缺、性状分布异质性以及跨传感器、跨生态系统泛化能力不足等挑战。其次，在数据集构建过程中，研究人员需要克服多源光谱数据的异质性整合难题，包括不同传感器的光谱分辨率、空间分辨率和辐射定标差异，以及大气校正、光谱归一化等预处理挑战。此外，数据集中植被类型的空间分布不均衡、时间跨度大（1992-2024年）导致的物候变化等因素，也为构建具有代表性的光谱-性状关联模型带来了显著挑战。

常用场景

经典使用场景

GreenHyperSpectra数据集在植被功能性状预测领域具有广泛的应用价值，特别是在全球尺度上通过高光谱遥感数据预测叶片碳含量、叶片质量等关键植物性状。该数据集整合了多平台（近端、机载、星载）、多传感器的光谱数据，覆盖了从可见光到短波红外的全光谱范围，为研究人员提供了一个统一的基准平台。其最经典的使用场景是训练和评估半监督与自监督学习模型，这些模型能够有效利用大量未标记的光谱数据，显著提升在标记数据稀缺情况下的预测性能。

实际应用

在实际应用方面，GreenHyperSpectra数据集为生态系统监测和农业管理提供了有力支持。基于该数据集训练的模型可以应用于无人机、航空和卫星平台获取的高光谱影像，实现大范围植被性状制图。这些应用包括但不限于：监测森林健康状况、评估农作物氮素状况、量化碳循环关键参数以及检测入侵物种对生态系统的影响。特别值得注意的是，该数据集支持的模型在仅使用可见光波段数据时仍保持较好性能，这使得其能够兼容更多商业卫星传感器，大大扩展了实际应用场景。

衍生相关工作

GreenHyperSpectra数据集已经催生了一系列相关研究工作。基于该数据集，研究人员开发了多种创新的深度学习架构，如掩码自编码器（MAE）框架、基于辐射传输模型的自动编码器（RTM-AE）以及半监督回归生成对抗网络（SR-GAN）。这些工作不仅推动了高光谱数据分析方法的进步，还为植物性状预测建立了新的性能基准。特别值得一提的是，该数据集促进了自监督学习在遥感领域的应用，相关方法已被扩展到土地覆盖分类、作物监测等其他遥感任务中，形成了跨领域的方法论迁移。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集