ForTy
收藏arXiv2025-05-03 更新2025-05-08 收录
下载链接:
https://github.com/google-deepmind/forest_typology
下载链接
链接失效反馈官方服务:
资源简介:
ForTy是一个全球性的、多模式的、多时相的基准数据集,旨在推动森林类型制图的研究。该数据集包含了20万个图像块的时间序列,每个图像块都包含Sentinel-2、Sentinel-1、气候和海拔数据。每个时间序列以月度或季节性频率捕捉变化。数据集的每个像素都进行了标注,包括森林类型和其他土地利用类别,支持图像分割任务。ForTy通过利用多个公共数据源,实现了全球覆盖。数据集被用于评估几个基线模型,包括卷积神经网络和基于Transformer的模型。此外,我们提出了一种新型的基于Transformer的模型,专门设计用于处理多模态、多时相卫星数据,用于森林类型制图。我们的实验结果表明,该模型在性能上优于基线模型。
ForTy is a global, multimodal, and multitemporal benchmark dataset developed to advance research on forest type mapping. This dataset contains time series of 200,000 image patches, each containing Sentinel-2, Sentinel-1, climatic, and elevation data. Each time series captures changes at monthly or seasonal frequencies. Every pixel in the dataset is annotated with forest types and other land use categories, supporting image segmentation tasks. The dataset achieves global coverage by leveraging multiple public data sources. It has been used to evaluate several baseline models, including convolutional neural networks and Transformer-based models. Furthermore, we propose a novel Transformer-based model specifically designed to handle multimodal, multitemporal satellite data for forest type mapping. Our experimental results demonstrate that this model outperforms the baseline models.
提供机构:
Google DeepMind
创建时间:
2025-05-03
搜集汇总
数据集介绍

构建方式
ForTy数据集的构建采用了多源数据融合与分层随机采样策略,整合了包括Sentinel-2多光谱影像、Sentinel-1合成孔径雷达数据、气候变量及高程数据在内的多模态卫星输入。通过协调全球8类土地覆盖标注(含3种森林类型),采用树高阈值过滤与数据源共识机制解决标签冲突,最终形成包含20万个1280×1280米样本的全球分布数据集。地理区块划分法(100×100 km²)以8:1:1比例确保训练集、验证集与测试集的空间独立性。
特点
该数据集的核心价值在于突破传统单类别森林标注局限,精细区分天然林、人工林与经济林三种森林类型,并涵盖其他植被与非植被类别。其多时序特性表现为2018-2020年间月度和季节性影像序列,Sentinel-2的10-20米多光谱波段与Sentinel-1的10米雷达极化数据形成互补。标注层面采用像素级语义分割标签,13%的样本以天然林为主导类别,人工林与经济林分别占10%与7%,真实反映了全球森林类型的不均衡分布格局。
使用方法
ForTy专为森林类型分割任务设计,支持卷积神经网络与Transformer架构的模型训练与评估。使用者可通过加载多时序卫星影像块及其对应掩膜标签,开发时空特征融合算法。基准测试表明,结合气候与高程数据的多模态输入能显著提升模型性能,其中月分辨率数据优于年度聚合数据。数据分区要求模型具备跨区域泛化能力,官方提供的MTSViT模型框架展示了多模态Transformer在特征交互上的优势,为后续研究提供技术参照。
背景与挑战
背景概述
ForTy数据集由苏黎世大学和Google DeepMind的研究团队于2025年联合发布,旨在解决全球森林类型精细化分类的关键科学问题。该数据集创新性地整合了Sentinel-2多光谱影像、Sentinel-1雷达数据、气候变量和地形特征等多源时空数据,包含20万个标注样本,覆盖天然林、人工林和经济林等三类森林类型及其他地表类别。作为首个提供像素级标注的全球尺度森林类型基准数据集,ForTy突破了传统遥感产品将森林统一归类的局限,为欧盟毁林法规(EUDR)等环保政策提供了数据支撑,推动了计算机视觉在生态监测领域的范式转变。
当前挑战
在领域问题层面,ForTy需解决森林类型间光谱特征相似(如天然林与老龄人工林)、小目标识别(经济林斑块分散)及物候时序特征解译等核心挑战。数据集构建过程中面临三大技术难点:多源标注数据冲突(如全球30%区域存在森林类型标注分歧)、非平衡样本分布(天然林占比达82%),以及多模态数据时空对齐(Sentinel-1/2数据分辨率差异达10倍)。这些挑战促使研究者开发新型时空注意力机制和噪声鲁棒学习算法,以提升在复杂地表场景下的分类精度。
常用场景
经典使用场景
ForTy数据集作为全球尺度森林类型分类的基准工具,其经典使用场景主要体现在利用多时相卫星遥感数据进行精细森林类型制图。该数据集整合了Sentinel-2光学影像、Sentinel-1雷达数据、气候变量及高程信息,通过200,000个地理分布样本的月度和季节时间序列,支持深度学习模型捕捉森林物候特征。其像素级标注系统特别适用于语义分割任务,能够有效区分天然林、人工林和经济林等三类森林类型,弥补了传统土地覆盖产品将森林归为单一类别的缺陷。
衍生相关工作
该数据集已衍生出多个重要研究方向:基于MTSViT架构的多模态时序处理框架被扩展应用于农作物分类领域;其分层采样策略启发了非洲作物类型数据集AfriCrop的构建方法;标注体系中的噪声处理机制为后续Planted数据集开发提供了参考。相关成果发表在IGARSS 2024等顶级会议,推动形成了'卫星时序-多模态融合-细粒度分类'的研究范式。
数据集最近研究
最新研究方向
随着全球气候变化和生物多样性保护需求的日益突出,森林类型精确分类已成为遥感领域的研究热点。ForTy数据集通过整合Sentinel-2多光谱影像、Sentinel-1雷达数据、气候和地形等多源时空信息,构建了包含20万个样本的全球尺度森林类型基准数据集,其创新性体现在首次实现了天然林、人工林和经济林的三级精细分类。当前研究主要聚焦于多模态时序Transformer模型的优化,如提出的MTSViT架构通过空间-时序双编码器和跨模态交互解码器,在像素级分类任务中F1分数达到81.1%,较传统CNN模型提升近50%。该数据集为欧盟毁林法规(EUDR)等政策实施提供了技术支撑,同时推动了遥感基础模型在生态监测领域的专用化发展。
相关研究论文
- 1Not Every Tree Is a Forest: Benchmarking Forest Types from Satellite Remote SensingGoogle DeepMind · 2025年
以上内容由遇见数据集搜集并总结生成



