five

PrediTree

收藏
arXiv2025-09-01 更新2025-09-05 收录
下载链接:
https://huggingface.co/datasets/preditree
下载链接
链接失效反馈
官方服务:
资源简介:
PrediTree是一个全面的开放源数据集,旨在训练和评估亚米级分辨率下的树木高度预测模型。该数据集结合了非常高的分辨率(0.5米)的激光雷达衍生的冠层高度图,与多时相和多光谱图像在空间上对齐,覆盖法国多样化的森林生态系统,总计3,141,568张图像。PrediTree通过使深度学习方法能够根据多个过去的观察来预测树木生长,填补了森林监测能力的关键空白。为了利用这个PrediTree数据集,我们提出了一个编码器-解码器框架,它需要多时相多光谱图像以及冠层高度图时间戳(目标)和每个图像获取日期之间的相对时间差异(以年为单位),以预测冠层高度。所进行的实验表明,在PrediTree数据集上训练的U-Net架构具有最高的掩码均方误差为11.78%,比次优架构ResNet-50高出约12%,并且将相同实验但在更少波段(仅红、绿、蓝)上的误差削减了约30%。这个数据集在HuggingFace上公开可用,处理和训练代码库也在GitHub上提供。

PrediTree is a comprehensive open-source dataset designed for training and evaluating tree height prediction models at sub-meter resolution. This dataset spatially aligns very high-resolution (0.5 m) LiDAR-derived canopy height maps with multi-temporal and multi-spectral images, covering diverse forest ecosystems across France, with a total of 3,141,568 images. PrediTree fills a critical gap in forest monitoring capabilities by enabling deep learning methods to predict tree growth based on multiple past observations. To leverage the PrediTree dataset, we propose an encoder-decoder framework that requires multi-temporal multi-spectral images, along with the timestamps of canopy height maps (targets) and the relative temporal differences (in years) between each image’s acquisition date, to predict canopy height. Conducted experiments show that the U-Net architecture trained on the PrediTree dataset achieves the highest mask mean squared error of 11.78%, which is approximately 12% higher than the sub-optimal ResNet-50 architecture, and reduces the error by about 30% for the same experiment using fewer bands (only red, green, blue). This dataset is publicly available on HuggingFace, and the processing and training codebase is also provided on GitHub.
提供机构:
IBM Research
创建时间:
2025-09-01
搜集汇总
数据集介绍
main_image_url
构建方式
PrediTree数据集构建依托法国国家地理与森林信息研究所(IGN)提供的原始激光雷达点云数据与多光谱影像,覆盖法国境内80个省份的多样化森林生态系统。数据处理流程采用多阶段融合方法:首先将RGB与近红外波段拼接并计算NDVI指数,随后通过点云数据处理生成数字地表模型和数字地形模型,经平滑滤波后衍生出冠层高度模型。光学影像重采样至0.5米分辨率并与CHM空间配准,最终通过质量控制过滤无效数据,形成包含314万张256×256图像块的标准化数据集。
特点
该数据集的核心特征体现在三方面:时空维度上提供三个非连续年份的多时相观测,时间跨度1-3年,支持动态生长建模;光谱维度包含RGB、近红外和NDVI五通道信息,兼顾表层反射与植被生理指标;空间分辨率达到0.5米亚米级,能够精确捕捉单木冠层结构。相较于现有数据集,PrediTree突破了单时相高度估计的局限,首次实现多时相影像与后期CHM的配对,为深度学习模型学习植被时空生长规律提供了完整的数据基础。
使用方法
数据集使用时需采用编码器-解码器架构处理多时相输入,模型接收三个时间点的五通道影像及其与目标CHM的时间差向量。时空融合模块提取联合特征后,通过投影层整合相对时间嵌入信息,最终输出冠层高度预测图。训练采用加权掩膜均方误差损失函数,重点优化植被像素的预测精度。用户可通过HuggingFace平台获取数据,并利用开源代码生成自定义分辨率(0.15-0.5米)的训练样本,该框架具备扩展到全球不同森林生态系统的潜力。
背景与挑战
背景概述
PrediTree数据集由IBM Research于2025年提出,是首个面向亚米级多时序树高预测的开源基准数据集。该数据集整合了法国多元森林生态系统中0.5米分辨率的激光雷达冠层高度图与多时序多光谱影像,涵盖314万张图像,旨在通过深度学习模型预测树木生长动态。其核心研究问题聚焦于突破传统单一时相高度估计的局限,为森林碳汇监测、气候变化响应及可持续林业管理提供高精度时空预测能力,显著推动了遥感与生态学的交叉研究进展。
当前挑战
该数据集解决的领域挑战包括:多时序数据融合中时空对齐的复杂性,亚米级分辨率下个体树冠特征的精确提取,以及跨生态系统泛化建模的难度。构建过程中的技术挑战涉及海量激光雷达点云与多光谱影像的配准与 harmonization,需克服不同传感器数据格式、分辨率及采集时间的异构性;同时,在数据处理流程中需有效滤除地形噪声、云覆盖及无效像素,确保冠层高度模型的精度与一致性。
常用场景
经典使用场景
在森林生态监测领域,PrediTree数据集通过融合亚米级分辨率的多时相多光谱影像与激光雷达衍生的冠层高度图,为深度学习模型提供了精准的训练基础。该数据集最经典的应用场景在于训练时空卷积神经网络,实现从历史光学观测数据中预测未来树木生长高度的任务。研究人员利用其三时相影像序列和相对时间差信息,构建端到端的编码器-解码器框架,有效捕捉森林冠层高度的动态变化规律。
实际应用
在实际应用层面,PrediTree数据集支持高精度森林资源监测与管理系统的发展。林业部门可利用该数据集训练的模型进行大范围树木生长趋势预测,辅助制定科学的采伐计划和森林养护策略。环境保护机构则借助其亚米级分辨率优势,精准评估森林碳储量变化,为碳交易市场提供可靠的数据支撑。此外,该数据集还可用于自然灾害后的森林恢复监测和生物多样性保护评估。
衍生相关工作
基于PrediTree数据集衍生的经典工作主要包括多模态融合的深度学习架构创新。研究者开发了结合时空注意力的U-Net变体,有效整合RGB、近红外和NDVI等多光谱信息。同时出现了专门处理相对时间差的时序建模方法,如时间嵌入投影网络。这些工作推动了森林遥感分析从静态估计向动态预测的范式转变,并催生了新一代结合气候与土壤数据的多模态预测模型的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作