five

SELVAMASK

收藏
arXiv2026-02-03 更新2026-02-05 收录
下载链接:
https://huggingface.co/datasets/CanopyRS/SelvaMask
下载链接
链接失效反馈
官方服务:
资源简介:
SELVAMASK是由蒙特利尔大学等机构联合创建的热带雨林树冠分割数据集,包含巴拿马、巴西和厄瓜多尔三个新热带站点的8,861个精细标注的树冠实例。该数据集采用1.3-3.5厘米/像素的高分辨率无人机影像,覆盖229.8公顷区域,首次实现了热带林冠层的完整标注(包括52.3%的微小树冠)。通过严格的专家标注协议和空间分区策略,数据集解决了现有热带数据集偏向大型树木的偏差问题,为生态研究和碳储量估算提供了重要基准。其核心应用是推动基于RGB影像的通用树冠分割算法发展,特别针对密集热带林冠层中重叠小树冠的识别难题。

SELVAMASK is a tropical forest canopy segmentation dataset jointly created by the University of Montreal and other institutions. It comprises 8,861 finely annotated canopy instances from three Neotropical sites located in Panama, Brazil, and Ecuador. This dataset utilizes high-resolution drone imagery with a spatial resolution of 1.3–3.5 cm per pixel, covering a total area of 229.8 hectares, and for the first time completes full annotation of tropical forest canopies, including 52.3% of tiny canopy individuals. Through rigorous expert annotation protocols and spatial partitioning strategies, the dataset resolves the bias prevalent in existing tropical datasets that favors large trees, serving as a critical benchmark for ecological research and carbon stock estimation. Its core application is to promote the development of general-purpose canopy segmentation algorithms based on RGB imagery, specifically addressing the challenge of identifying overlapping small canopies within dense tropical forest canopies.
提供机构:
蒙特利尔大学; Mila·魁北克人工智能研究所; 史密森尼热带研究所; 圣弗朗西斯科基多大学; 麦吉尔大学
创建时间:
2026-02-03
原始信息汇总

SelvaMask数据集概述

数据集基本信息

  • 数据集名称: SelvaMask
  • 托管平台: Hugging Face Datasets
  • 数据集地址: https://huggingface.co/datasets/CanopyRS/SelvaMask

数据内容与结构

  • 核心数据类型: 图像数据及其标注
  • 主要特征字段:
    • height: 图像高度(int64)
    • width: 图像宽度(int64)
    • fold: 数据折叠分组(string)
    • raster_name: 栅格数据名称(string)
    • location: 地理位置(string)
    • image: 图像数据(image)
    • tile_name: 瓦片名称(string)
    • annotations: 标注信息(struct)
      • bbox: 边界框坐标列表(list of list of float64)
      • segmentation: 分割掩码坐标列表(list of list of list of float64)
      • area: 区域面积列表(list of float64)
      • iscrowd: 是否为拥挤区域标记列表(list of int64)
      • category: 类别标签列表(list of string)
    • tile_metadata: 瓦片元数据(struct)
      • crs: 坐标参考系统(string)
      • transform: 地理变换参数列表(list of float64)
      • bounds: 地理边界列表(list of float64)
      • width: 瓦片宽度(int64)
      • height: 瓦片高度(int64)
      • count: 波段数量(int64)
      • dtypes: 数据类型列表(list of string)
      • nodata: 无数据值(float64)

数据集划分与规模

  • 数据划分:
    • 训练集(train): 43个样本,占用空间849,281,447字节
    • 验证集(validation): 192个样本,占用空间1,001,739,445字节
    • 测试集(test): 264个样本,占用空间1,547,641,950字节
  • 总体规模:
    • 下载大小: 3,337,083,359字节
    • 数据集总大小: 3,398,662,842字节

配置信息

  • 默认配置名称: default
  • 数据文件路径:
    • 训练集: data/train-*
    • 验证集: data/validation-*
    • 测试集: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在热带森林遥感监测领域,高分辨率影像的获取与精确标注是构建可靠数据集的基础。SELVAMASK数据集的构建依托无人机平台,在巴拿马、巴西和厄瓜多尔三个新热带站点采集了地面采样距离为1.3至3.5厘米/像素的RGB正射影像。标注过程遵循完整的树冠映射协议,由专家使用ArcGIS Pro工具手动勾勒所有可见树冠轮廓,确保多边形拓扑一致且无重叠。通过两阶段空间分区策略,将影像划分为训练、验证和测试区域,并采用滑动窗口提取图像块,以严格隔离空间自相关性,从而形成包含约8,900个标注树冠的高质量数据集。
使用方法
SELVAMASK数据集主要用于评估和推动个体树冠实例分割算法的发展。研究者可利用其提供的训练集和验证集,对端到端模型或模块化流水线进行训练与调优。数据集支持标准的COCO风格实例分割指标评估,同时也引入了新的平均栅格级F1分数,用于在完整正射影像上评估分割性能。用户可以进行空间交叉验证,以测试模型在未见站点的泛化能力。此外,数据集允许按树冠尺寸类别分层分析模型表现,从而深入理解算法在不同生态尺度上的性能差异。通过将SELVAMASK与外部热带或温带数据集结合使用,可进一步验证所训练模型的跨域泛化能力,推动通用化森林监测技术的进步。
背景与挑战
背景概述
热带森林作为地球生物多样性与碳储存的关键区域,其冠层树木的精确分割对于生态监测与碳储量评估具有深远意义。SELVAMASK数据集由蒙特利尔大学、Mila研究所及史密森尼热带研究所等机构的研究团队于2026年发布,旨在应对热带森林中个体树冠分割的挑战。该数据集涵盖巴拿马、巴西和厄瓜多尔三个新热带站点,包含超过8,800个手动标注的树冠,采用高分辨率无人机影像(地面采样距离1.3-3.5厘米/像素),并遵循完整冠层标注协议,以捕捉热带森林密集交错的结构特征。SELVAMASK不仅填补了热带森林数据稀缺的空白,还为基于视觉基础模型的树冠分割方法提供了关键基准,推动了森林监测领域的技术创新与应用拓展。
当前挑战
SELVAMASK数据集所针对的个体树冠分割任务面临多重挑战:热带森林冠层结构密集,树木冠幅重叠严重,且物种多样性极高,导致边界模糊与分割歧义;现有模型在复杂冠层环境下分割精度有限,尤其在小型与密集树冠上表现不佳。在数据集构建过程中,标注工作面临视觉歧义性高的问题,不同标注者对于树冠边界的判断存在显著差异,尤其是在小型树冠上;同时,高分辨率影像的处理与标注需保持拓扑一致性,避免多边形重叠,增加了人工标注的复杂度与时间成本。此外,数据集的跨站点泛化能力仍需验证,以应对不同地理与生态条件下的分布差异。
常用场景
经典使用场景
在热带森林生态学研究中,SELVAMASK数据集被广泛应用于个体树冠分割任务,特别是在高分辨率无人机影像上精确勾勒树冠轮廓。该数据集覆盖巴拿马、巴西和厄瓜多尔三个新热带站点,包含超过8800个手工标注的树冠实例,其密集的冠层结构和全面的标注协议为模型训练提供了真实且具有挑战性的基准。研究人员利用该数据集评估和优化分割算法在复杂热带林冠条件下的性能,推动计算机视觉技术在森林监测领域的深入应用。
解决学术问题
SELVAMASK数据集有效解决了热带森林树冠分割中的多个核心学术问题,包括密集冠层下小树冠的漏检、重叠树冠边界的模糊性以及跨站点泛化能力不足等挑战。通过引入多站点高分辨率标注数据,该数据集为模型提供了丰富的形态和尺度变异样本,显著提升了分割精度和鲁棒性。其意义在于填补了热带森林树冠分割高质量数据集的空白,为生态学研究提供了可靠的数据基础,促进了机器学习方法在生物多样性保护和碳储量估算等关键领域的应用。
实际应用
在实际应用中,SELVAMASK数据集支撑的树冠分割技术已被用于森林资源管理和生态监测。例如,在巴拿马巴罗科罗拉多岛等自然保护区,基于该数据集的模型能够自动识别和统计树冠个体,辅助科学家评估森林结构和动态变化。这些分割结果进一步服务于树种识别、生物量估算和森林健康评估,为热带森林的保护和可持续管理提供了高效、低成本的技术解决方案,具有重要的环境保护和气候变化应对价值。
数据集最近研究
最新研究方向
在热带森林遥感监测领域,SELVAMASK数据集推动了基于视觉基础模型的个体树冠分割研究。该数据集通过覆盖巴拿马、巴西和厄瓜多尔三个新热带站点的高分辨率RGB影像与密集标注,为密集树冠分割提供了挑战性基准。前沿研究聚焦于模块化检测-分割管道,利用领域特异性检测器(如SelvaBox)提示SAM等视觉基础模型,并通过端到端微调策略优化分割性能。这种方法在零样本和全监督设置下均实现了最先进性能,显著提升了在复杂热带林冠中的泛化能力。研究还引入了多标注者一致性分析,量化任务模糊性,为模型评估提供了人类性能上限参考。这些进展不仅促进了跨生物群落(热带、温带、城市)的通用树冠监测,也为森林碳储量估算与生物多样性保护提供了关键技术支持。
相关研究论文
  • 1
    SelvaMask: Segmenting Trees in Tropical Forests and Beyond蒙特利尔大学; Mila·魁北克人工智能研究所; 史密森尼热带研究所; 圣弗朗西斯科基多大学; 麦吉尔大学 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作