five

GlobalGeoTree

收藏
github2025-05-16 更新2025-05-26 收录
下载链接:
https://github.com/MUYang99/GlobalGeoTree
下载链接
链接失效反馈
官方服务:
资源简介:
GlobalGeoTree是一个全面的全球树种分类数据集,包含630万个地理位置标记的树种记录,涵盖275个科、2,734个属和21,001个物种。每个样本都配有Sentinel-2图像时间序列和27个辅助环境变量。

GlobalGeoTree is a comprehensive global tree species classification dataset containing 6.3 million georeferenced tree species records, spanning 275 families, 2,734 genera, and 21,001 species. Each sample is accompanied by a Sentinel-2 image time series and 27 auxiliary environmental variables.
创建时间:
2025-05-16
原始信息汇总

GlobalGeoTree数据集概述

数据集基本信息

  • 数据集名称: GlobalGeoTree: A Multi-Granular Vision-Language Dataset for Global Tree Species Classification
  • 数据总量: 630万条地理定位树木记录
  • 地理覆盖范围: 221个国家/地区
  • 分类学覆盖范围:
    • 275科
    • 2,734属
    • 21,001种

数据特征

  • 遥感数据: Sentinel-2时间序列(12个月合成数据)
  • 辅助环境变量: 27个
  • 标签体系: 层级分类学标签

数据集结构

  • 主数据集: GlobalGeoTree-6M
  • 评估集: GlobalGeoTree-10kEval(包含3个子集)
    • GlobalGeoTree-10kEval: 90种(稀有/常见/频繁各30)
    • GlobalGeoTree-10kEval-300: 300种(各100)
    • GlobalGeoTree-10kEval-900: 900种(各300)

数据文件

  • CSV文件:
    • 包含样本ID、分类信息(科/属/种)、地理位置(经纬度)、观测来源及年份、位置描述
    • 地址: https://huggingface.co/datasets/yann111/GlobalGeoTree/tree/main/files

模型资源

  • 预训练模型: GGT_6M.pth(基于GlobalGeoTree-6M训练25个epoch)
    • 下载地址: https://huggingface.co/datasets/yann111/GlobalGeoTree/tree/main/checkpoints

数据访问方式

  1. 直接流式访问(推荐):
    • 地址: https://huggingface.co/datasets/yann111/GlobalGeoTree/tree/main/GlobalGeoTree-6M
  2. 本地下载访问

许可证

  • 授权协议: Apache License 2.0
搜集汇总
数据集介绍
main_image_url
构建方式
GlobalGeoTree数据集的构建采用了多源数据融合的策略,通过整合全球生物多样性信息设施(GBIF)的树木分布记录与Sentinel-2卫星遥感时序数据,辅以27种环境变量,构建了一个层次化的树种分类体系。技术实现上采用Python脚本自动化完成GBIF数据采集、遥感影像匹配及评估集生成,最终通过WebDataset格式实现高效数据存储与访问。数据采集覆盖221个国家/地区,形成包含630万条地理标记样本的全球性资源。
使用方法
用户可通过Huggingface平台直接获取WebDataset格式的数据流,或下载至本地存储。配套的PyTorch数据加载器支持端到端的模型训练,预训练模型权重GGT_6M.pth可直接用于迁移学习。模型架构采用视觉-语言联合嵌入空间,支持零样本推理,用户可通过定义不同分类层级的文本查询实现灵活的树种预测。训练脚本提供多GPU分布式训练和混合精度计算支持,满足不同规模的计算需求。
背景与挑战
背景概述
GlobalGeoTree数据集作为全球范围内树木物种分类的多粒度视觉-语言数据集,由国际研究团队于2025年创建,旨在解决生物多样性监测与生态保护中的关键问题。该数据集整合了来自221个国家和地区的630万条地理定位树木记录,涵盖275科、2734属和21001种植物,通过Sentinel-2时间序列影像和27种辅助环境变量构建了多层次分类体系。其创新性在于将遥感数据与生物分类学深度融合,为全球尺度植被动态研究提供了标准化基准,显著推动了计算机视觉在生态学领域的跨学科应用。
当前挑战
该数据集面临的核心挑战体现在两个维度:在科学层面,需解决全球树木物种分布极度不均衡导致的分类偏差问题,尤其对稀有物种的识别准确率亟待提升;在技术层面,多源异构数据的时空对齐与质量控制构成重大难题,包括Sentinel-2影像的云层干扰消除、不同采样年份数据的标准化处理等。数据构建过程中,如何从GBIF等生物多样性平台清洗海量非结构化记录,并实现跨模态特征的有效融合,成为制约数据集质量的关键瓶颈。
常用场景
经典使用场景
GlobalGeoTree数据集在生态学和遥感领域具有广泛的应用价值,其经典使用场景包括全球范围内树种的自动分类与识别。通过整合Sentinel-2时间序列影像和27种辅助环境变量,该数据集能够支持多粒度、多层次的树种分类任务。研究人员可以利用这一数据集,结合深度学习模型,实现从科、属到种不同层级的树种精准识别,为生物多样性研究和生态系统监测提供强有力的数据支撑。
解决学术问题
GlobalGeoTree数据集解决了传统树种分类研究中数据覆盖范围有限、样本量不足以及多源数据融合困难等关键问题。其包含的630万条地理定位树种记录和21,001个物种的全面覆盖,显著提升了全球尺度树种分类的准确性和可靠性。该数据集通过整合遥感影像与环境变量,为研究树种分布与环境因子的关系、生物多样性热点区域识别以及气候变化对植被的影响等前沿科学问题提供了重要数据基础。
实际应用
在实际应用中,GlobalGeoTree数据集已被广泛应用于森林资源管理、生物多样性保护以及环境监测等领域。林业部门可以利用该数据集进行树种分布制图和森林健康评估,环保组织则借助其开展濒危树种保护和生态系统服务功能研究。此外,该数据集还可支持智慧农业中的精准林业管理,为可持续森林经营决策提供科学依据。
数据集最近研究
最新研究方向
随着全球气候变化与生物多样性保护需求的日益凸显,GlobalGeoTree数据集为全球尺度树种识别研究提供了前所未有的多模态数据支撑。该数据集整合了630万条地理标记的树种分布记录与Sentinel-2时序遥感数据,其跨学科特性正推动计算机视觉与生态学的深度融合研究。当前前沿探索集中在多模态表征学习框架的优化,通过融合光谱时序特征与27种环境辅助变量,突破传统分类方法在稀有物种识别中的瓶颈。在生物多样性监测领域,该数据集支持构建全球树种分布预测模型,为《昆明-蒙特利尔全球生物多样性框架》的实施提供科学依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作