GlobalGeoTree
收藏arXiv2025-05-19 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.12513v1
下载链接
链接失效反馈资源简介:
GlobalGeoTree是一个全面的全球数据集,用于树木种类分类。该数据集包含了630万个地理定位的树木出现数据,跨越了275个科,2734个属和21001个种。每个样本都与Sentinel-2图像时间序列和27个辅助环境变量配对,包括生物气候、地理和土壤数据。数据集被分为GlobalGeoTree-6M用于模型预训练和经过精选的评价子集,主要是GlobalGeoTree-10kEval用于零样本和少样本基准测试。为了证明数据集的实用性,我们引入了一个基准模型GeoTreeCLIP,该模型在一个视觉语言框架内,利用配对的遥感数据和分类文本标签,在GlobalGeoTree-6M上进行了预训练。实验结果表明,GeoTreeCLIP在GlobalGeoTree10kEval上实现了零样本和少样本分类的实质性改进,超过了现有的先进模型。通过公开数据集、模型和代码,我们的目标是建立一个基准,以促进树木种类分类的发展,并促进生物多样性研究和生态应用的创新。
GlobalGeoTree is a comprehensive global dataset for tree species classification. This dataset contains 6.3 million georeferenced tree occurrence records, spanning 275 families, 2734 genera, and 21001 species. Each sample is paired with Sentinel-2 image time series and 27 auxiliary environmental variables, including bioclimatic, geospatial, and soil data. The dataset is split into GlobalGeoTree-6M for model pre-training and a curated evaluation subset, primarily GlobalGeoTree-10kEval, which is used for zero-shot and few-shot benchmarking. To validate the dataset's utility, we introduce a benchmark model GeoTreeCLIP. Pre-trained on GlobalGeoTree-6M within a vision-language framework, this model leverages paired remote sensing data and taxonomic text labels. Experimental results demonstrate that GeoTreeCLIP achieves substantial improvements in zero-shot and few-shot classification on GlobalGeoTree-10kEval, outperforming existing state-of-the-art models. By publicly releasing the dataset, model and code, our goal is to establish a benchmark to advance tree species classification research and foster innovations in biodiversity studies and ecological applications.
提供机构:
慕尼黑工业大学, 维也纳大学, 康斯坦茨大学, 慕尼黑机器学习中心
创建时间:
2025-05-19
AI搜集汇总
数据集介绍

构建方式
GlobalGeoTree数据集的构建采用了多源数据融合与严格的质量控制流程。研究团队整合了TreeGOER和GlobalTreeSearch两大全球树种数据库,通过GBIF物种API验证并扩展了分类框架,最终形成包含87,845个树种的完整目录。地理定位数据通过GBIF Occurrence API获取,并应用五项严格过滤标准确保数据可靠性,包括时间范围限定(2015-2024年)、人类观察记录筛选、地理坐标验证等。为聚焦森林区域,数据集采用EC JRC全球森林覆盖图进行空间过滤,最终形成覆盖221个国家/地区、630万条样本的全球分布数据。每个样本关联Sentinel-2卫星12个月的时间序列影像和27种生物气候、土壤等环境变量,构建了多模态的树种环境表征体系。
特点
该数据集的核心优势体现在三个维度:全球覆盖性、多模态性和层次化分类体系。地理范围上覆盖六大洲221个国家/地区,包含21,001个树种,是当前 taxonomic 覆盖最完整的遥感树种数据集。数据模态上创新性地融合了10m分辨率的Sentinel-2月度中值合成影像、30m地形数据和1km生物气候变量,形成时空谱多维特征矩阵。分类体系采用功能型-科-属-种四级层次结构,其中罕见物种(样本量<100)占55.29%,常见与高频物种均衡分布,有效反映了真实世界的长尾分布特性。特别设计的GlobalGeoTree-10kEval评估子集包含90个按样本量分层的树种,为模型在数据稀缺场景下的泛化能力提供标准测试基准。
使用方法
数据集采用WebDataset格式存储,支持流式加载以降低硬件需求。主要分为6M规模的预训练集和10kEval评估集,建议使用流程包含三个阶段:首先利用GlobalGeoTree-6M进行视觉语言模型的对比学习预训练,将卫星影像块与分类学文本标签在嵌入空间对齐;然后在10kEval子集上开展零样本或小样本迁移评估,通过计算视觉特征与文本标签的相似度实现分类;最终可结合辅助环境变量进行决策增强。基准模型GeoTreeCLIP已证明该架构在属级零样本分类任务中能达到18.39%准确率,较通用CLIP模型提升近17倍。对于特定应用场景,建议优先考虑数据集中与目标区域生态特征相似的树种子集进行微调。
背景与挑战
背景概述
GlobalGeoTree数据集由慕尼黑工业大学、维也纳大学和康斯坦茨大学的研究团队于2025年发布,旨在解决全球树种分类中的关键瓶颈问题。该数据集整合了630万条地理定位的树种记录,涵盖21,001个物种、2,734个属和275个科,每个样本均配有时序Sentinel-2遥感影像及27种环境变量。作为首个融合多模态生态数据的全球性基准,其创新性地采用视觉-语言框架GeoTreeCLIP,在零样本和少样本学习场景下显著提升了分类性能,为生物多样性监测和森林碳汇评估等领域提供了重要基础设施。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决全球尺度下树种分类的长尾分布问题(55.29%物种样本不足10个)和跨区域表型变异问题;在构建过程中,需克服地理定位数据的不均衡性(欧美样本占比过高)、Sentinel-2时序数据与地面观测的时间对齐难题,以及多源环境变量(土壤、气候、地形)的空间分辨率差异(30m至1km)。此外,植物分类学命名体系的不稳定性(年均约10%物种发生分类修订)也对标签一致性构成持续挑战。
常用场景
经典使用场景
GlobalGeoTree数据集在生态遥感领域具有广泛的应用价值,其经典使用场景包括全球尺度下的树种分类与生物多样性监测。通过整合Sentinel-2时间序列影像与27种环境辅助变量,该数据集能够支持多粒度分类任务,从功能型(如常绿阔叶林)到物种级(如桉树属特定种类)的层级识别。其6.3百万地理标记样本覆盖275科2734属,特别适用于验证模型在零样本和小样本场景下的跨区域泛化能力,例如评估模型对南美洲稀有树种或北半球常见树种的分类表现。
解决学术问题
该数据集有效解决了遥感生态研究中长期存在的三大难题:首先,通过融合多源环境变量(如土壤含水量、生物气候数据),弥补了传统遥感数据在树种生态位建模中的信息缺失;其次,21,001个物种的层级标签体系为研究分类学关联性提供了结构化基准,支持从科属到物种的知识迁移;更重要的是,其精心设计的评估子集GlobalGeoTree-10kEval通过区分常见种与稀有种,为长尾分布问题提供了量化研究平台。这些特性显著推进了跨区域树种识别模型的可解释性研究。
衍生相关工作
围绕该数据集已衍生出三个重要研究方向:一是扩展型工作如BioCLIP,将视觉-语言框架应用于更广泛的生物分类群;二是方法论创新如TreePrompt,利用 taxonomic 标签层级改进小样本学习;三是应用工具开发,包括欧盟开发的ForestWatch系统集成该数据用于实时林火后生态恢复评估。相关成果在CVPR、IGARSS等会议形成专门研讨专题,推动形成了'遥感+生态信息学'交叉领域。
以上内容由AI搜集并总结生成



