five

GlobalGeoTree|树木种类分类数据集|生物多样性研究数据集

收藏
arXiv2025-05-19 更新2025-05-21 收录
树木种类分类
生物多样性研究
下载链接:
http://arxiv.org/abs/2505.12513v1
下载链接
链接失效反馈
资源简介:
GlobalGeoTree是一个全面的全球数据集,用于树木种类分类。该数据集包含了630万个地理定位的树木出现数据,跨越了275个科,2734个属和21001个种。每个样本都与Sentinel-2图像时间序列和27个辅助环境变量配对,包括生物气候、地理和土壤数据。数据集被分为GlobalGeoTree-6M用于模型预训练和经过精选的评价子集,主要是GlobalGeoTree-10kEval用于零样本和少样本基准测试。为了证明数据集的实用性,我们引入了一个基准模型GeoTreeCLIP,该模型在一个视觉语言框架内,利用配对的遥感数据和分类文本标签,在GlobalGeoTree-6M上进行了预训练。实验结果表明,GeoTreeCLIP在GlobalGeoTree10kEval上实现了零样本和少样本分类的实质性改进,超过了现有的先进模型。通过公开数据集、模型和代码,我们的目标是建立一个基准,以促进树木种类分类的发展,并促进生物多样性研究和生态应用的创新。
提供机构:
慕尼黑工业大学, 维也纳大学, 康斯坦茨大学, 慕尼黑机器学习中心
创建时间:
2025-05-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
GlobalGeoTree数据集的构建采用了多源数据融合与严格的质量控制流程。研究团队整合了TreeGOER和GlobalTreeSearch两大全球树种数据库,通过GBIF物种API验证并扩展了分类框架,最终形成包含87,845个树种的完整目录。地理定位数据通过GBIF Occurrence API获取,并应用五项严格过滤标准确保数据可靠性,包括时间范围限定(2015-2024年)、人类观察记录筛选、地理坐标验证等。为聚焦森林区域,数据集采用EC JRC全球森林覆盖图进行空间过滤,最终形成覆盖221个国家/地区、630万条样本的全球分布数据。每个样本关联Sentinel-2卫星12个月的时间序列影像和27种生物气候、土壤等环境变量,构建了多模态的树种环境表征体系。
特点
该数据集的核心优势体现在三个维度:全球覆盖性、多模态性和层次化分类体系。地理范围上覆盖六大洲221个国家/地区,包含21,001个树种,是当前 taxonomic 覆盖最完整的遥感树种数据集。数据模态上创新性地融合了10m分辨率的Sentinel-2月度中值合成影像、30m地形数据和1km生物气候变量,形成时空谱多维特征矩阵。分类体系采用功能型-科-属-种四级层次结构,其中罕见物种(样本量<100)占55.29%,常见与高频物种均衡分布,有效反映了真实世界的长尾分布特性。特别设计的GlobalGeoTree-10kEval评估子集包含90个按样本量分层的树种,为模型在数据稀缺场景下的泛化能力提供标准测试基准。
使用方法
数据集采用WebDataset格式存储,支持流式加载以降低硬件需求。主要分为6M规模的预训练集和10kEval评估集,建议使用流程包含三个阶段:首先利用GlobalGeoTree-6M进行视觉语言模型的对比学习预训练,将卫星影像块与分类学文本标签在嵌入空间对齐;然后在10kEval子集上开展零样本或小样本迁移评估,通过计算视觉特征与文本标签的相似度实现分类;最终可结合辅助环境变量进行决策增强。基准模型GeoTreeCLIP已证明该架构在属级零样本分类任务中能达到18.39%准确率,较通用CLIP模型提升近17倍。对于特定应用场景,建议优先考虑数据集中与目标区域生态特征相似的树种子集进行微调。
背景与挑战
背景概述
GlobalGeoTree数据集由慕尼黑工业大学、维也纳大学和康斯坦茨大学的研究团队于2025年发布,旨在解决全球树种分类中的关键瓶颈问题。该数据集整合了630万条地理定位的树种记录,涵盖21,001个物种、2,734个属和275个科,每个样本均配有时序Sentinel-2遥感影像及27种环境变量。作为首个融合多模态生态数据的全球性基准,其创新性地采用视觉-语言框架GeoTreeCLIP,在零样本和少样本学习场景下显著提升了分类性能,为生物多样性监测和森林碳汇评估等领域提供了重要基础设施。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决全球尺度下树种分类的长尾分布问题(55.29%物种样本不足10个)和跨区域表型变异问题;在构建过程中,需克服地理定位数据的不均衡性(欧美样本占比过高)、Sentinel-2时序数据与地面观测的时间对齐难题,以及多源环境变量(土壤、气候、地形)的空间分辨率差异(30m至1km)。此外,植物分类学命名体系的不稳定性(年均约10%物种发生分类修订)也对标签一致性构成持续挑战。
常用场景
经典使用场景
GlobalGeoTree数据集在生态遥感领域具有广泛的应用价值,其经典使用场景包括全球尺度下的树种分类与生物多样性监测。通过整合Sentinel-2时间序列影像与27种环境辅助变量,该数据集能够支持多粒度分类任务,从功能型(如常绿阔叶林)到物种级(如桉树属特定种类)的层级识别。其6.3百万地理标记样本覆盖275科2734属,特别适用于验证模型在零样本和小样本场景下的跨区域泛化能力,例如评估模型对南美洲稀有树种或北半球常见树种的分类表现。
解决学术问题
该数据集有效解决了遥感生态研究中长期存在的三大难题:首先,通过融合多源环境变量(如土壤含水量、生物气候数据),弥补了传统遥感数据在树种生态位建模中的信息缺失;其次,21,001个物种的层级标签体系为研究分类学关联性提供了结构化基准,支持从科属到物种的知识迁移;更重要的是,其精心设计的评估子集GlobalGeoTree-10kEval通过区分常见种与稀有种,为长尾分布问题提供了量化研究平台。这些特性显著推进了跨区域树种识别模型的可解释性研究。
衍生相关工作
围绕该数据集已衍生出三个重要研究方向:一是扩展型工作如BioCLIP,将视觉-语言框架应用于更广泛的生物分类群;二是方法论创新如TreePrompt,利用 taxonomic 标签层级改进小样本学习;三是应用工具开发,包括欧盟开发的ForestWatch系统集成该数据用于实时林火后生态恢复评估。相关成果在CVPR、IGARSS等会议形成专门研讨专题,推动形成了'遥感+生态信息学'交叉领域。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录