SELVABOX
收藏arXiv2025-07-01 更新2025-07-04 收录
下载链接:
https://huggingface.co/datasets/CanopyRS/SelvaBox
下载链接
链接失效反馈官方服务:
资源简介:
SELVABOX是一个用于热带树木树冠检测的高分辨率数据集,由Mila – Quebec AI Institute等多个研究机构创建。该数据集包含超过8.3万个手动标记的树冠,是迄今为止最大的开放获取热带森林数据集。数据集覆盖了巴西、厄瓜多尔和巴拿马三个国家,使用四种不同类型的无人机拍摄,分辨率在1.2至5.1厘米每像素之间。数据集旨在帮助研究人员监测热带树木,了解这些森林调节全球气候的能力,并推动机器学习在环境挑战中的应用。
提供机构:
Mila – Quebec AI Institute, Université de Montréal, McGill University, Rubisco AI, Colorado Mesa University, Polytechnique Montreal
创建时间:
2025-07-01
原始信息汇总
SelvaBox数据集概述
数据集基本信息
- 名称: SelvaBox
- 许可证: CC-BY-4.0
- 下载大小: 31,336,873,232字节
- 数据集大小: 31,400,499,619.402字节
数据集内容
- 描述: 高分辨率热带树木数据集,包含来自巴西、厄瓜多尔和巴拿马的14个重采样至4.5 cm GSD的栅格图像,涵盖超过83,000个人工标注的热带树冠边界框。
- 图像尺寸:
- 训练图块: 3555x3555像素
- 验证和测试图块: 1777x1777像素
- 空间范围: 80x80米
- 重叠情况:
- 训练与验证图块: 50%重叠
- 测试图块: 75%重叠(确保直径50+米的树木能完整出现在至少一个图块中)
数据集结构
特征
height: 高度(int64)width: 宽度(int64)fold: 折叠(string)raster_name: 栅格名称(string)location: 位置(string)image: 图像(image)tile_name: 图块名称(string)annotations: 标注bbox: 边界框(sequence of float64)segmentation: 分割(null)area: 面积(sequence of float64)iscrowd: 是否拥挤(sequence of int64)is_rle_format: RLE格式(null)category: 类别(sequence of string)
tile_metadata: 图块元数据crs: 坐标参考系统(string)transform: 变换(sequence of float64)bounds: 边界(sequence of float64)width: 宽度(int64)height: 高度(int64)count: 计数(int64)dtypes: 数据类型(sequence of string)nodata: 无数据值(null)
数据划分
- 训练集:
- 样本数: 585
- 字节数: 16,884,458,976
- 验证集:
- 样本数: 387
- 字节数: 2,786,536,280
- 测试集:
- 样本数: 1,477
- 字节数: 11,729,504,363.402
相关论文
- 论文链接即将发布。
搜集汇总
数据集介绍

构建方式
SELVABOX数据集通过无人机采集高分辨率RGB影像,覆盖巴西、厄瓜多尔和巴拿马三个国家的热带森林区域。影像采集采用恒定高度飞行,确保前向重叠率大于80%,侧向重叠率大于70%,并在正午时分拍摄以减少阴影影响。所有影像通过Agisoft Metashape软件进行对齐和拼接,生成空间分辨率为1.2至5.1厘米/像素的正射影像。数据集包含83,137个手动标注的树冠边界框,由六名训练有素的生物学家耗时1,284小时完成,标注工具为ArcGIS Pro,并存储为地理包格式。
特点
SELVABOX是目前最大的热带树冠检测公开数据集,涵盖多样化的热带森林类型、光照条件和地面采样距离。数据集标注密集且覆盖广泛,树冠直径从小于2米到超过50米不等,呈现长尾分布。其高分辨率和地理多样性为模型训练提供了丰富的多尺度对象检测场景,尤其适合研究树冠大小、形状和纹理的极端变异。
使用方法
该数据集支持端到端的深度学习模型训练,建议采用多分辨率输入增强策略以提高模型尺度不变性。用户可通过滑动窗口将影像分割为训练块(推荐80×80米范围),并应用50%重叠率。评估时建议采用提出的RF175指标(基于75%IoU阈值的栅格级F1分数),该指标更贴合实际森林监测需求。数据集配套提供Python预处理库(geodataset)和基准测试工具(CanopyRS),支持从数据预处理到模型训练的全流程。
背景与挑战
背景概述
SELVABOX是由Mila魁北克人工智能研究所、蒙特利尔大学等机构的研究团队于2025年发布的高分辨率热带树冠检测数据集。该数据集旨在解决热带森林监测中的关键挑战——在树冠高度重叠、形态多样的复杂环境中实现个体树木的精准识别。数据集覆盖巴西、厄瓜多尔和巴拿马三个国家,包含超过83,000个手工标注的树冠边界框,空间分辨率达1.2-5.1厘米/像素,是现有热带森林数据集中规模最大的开放获取资源。其创新性体现在多国样本覆盖、厘米级分辨率标注以及生态学家的专业标注质量,为研究热带森林碳储存、生物多样性等生态问题提供了重要基础。
当前挑战
SELVABOX面临的挑战主要体现在两个方面:在领域问题层面,热带树冠形态极端多样(直径从2米到50米不等),且存在严重的遮挡和交织现象,这对计算机视觉模型的多尺度检测能力提出严峻考验;在构建过程中,研究团队需克服无人机影像在热带多云条件下的采集困难,处理不同国家森林结构的异质性,并协调六位生物学家完成1,284小时的专业标注工作。此外,数据集中部分区域的稀疏标注问题也增加了模型训练的复杂度,需要设计特殊的掩膜策略来避免学习偏差。
常用场景
经典使用场景
SELVABOX数据集在热带森林生态监测领域具有重要应用价值,其高分辨率的无人机影像和大量手动标注的树冠边界框为研究热带森林树冠检测提供了丰富的数据支持。该数据集广泛应用于热带森林树冠检测模型的训练与评估,特别是在处理树冠大小、结构和模式高度多样化的复杂场景时,SELVABOX的多样性和规模使其成为该领域的基准数据集。通过该数据集,研究人员能够开发出更精确的树冠检测算法,从而更好地理解热带森林的结构和动态。
解决学术问题
SELVABOX数据集解决了热带森林树冠检测中数据稀缺的关键问题,填补了现有数据集中热带森林代表性不足的空白。其83,000多个手动标注的树冠边界框为训练和评估深度学习模型提供了丰富的数据资源。该数据集特别针对热带森林中树冠大小差异大、重叠和交织严重的特点,为研究多尺度目标检测和复杂场景下的计算机视觉算法提供了理想平台。此外,SELVABOX还促进了遥感技术与生态学的交叉研究,为热带森林碳储存和生物多样性研究提供了重要数据支持。
衍生相关工作
SELVABOX数据集已经催生了一系列相关研究工作,特别是在多分辨率树冠检测和跨数据集泛化方面。基于该数据集的研究探索了不同深度学习架构(如Faster R-CNN、DINO等)在热带树冠检测中的性能比较。该数据集还促进了多分辨率训练方法的发展,使得模型能够适应不同传感器和飞行参数获取的影像数据。此外,SELVABOX与其他数据集(如OAM-TCD、NeonTreeEvaluation等)的结合使用,推动了树冠检测模型泛化能力的提升,为开发适用于全球不同森林类型的通用检测模型奠定了基础。
以上内容由遇见数据集搜集并总结生成



