IGNF/PureForest
收藏Hugging Face2024-11-26 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/IGNF/PureForest
下载链接
链接失效反馈官方服务:
资源简介:
---
license: etalab-2.0
pretty_name: PureForest
size_categories:
- 100K<n<1M
task_categories:
- image-classification
- other
tags:
- IGN
- Aerial
- Environement
- Multimodal
- Earth Observation
- Lidar
- ALS
- Point Cloud
- Forest
- Tree Species
---
# PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests
> - PureForest dataset is derived from 449 different forests located in 40 French departments, mainly in the southern regions.
> - This dataset includes 135,569 patches, each measuring 50 m x 50 m, covering a cumulative exploitable area of 339 km².
> - Each patch represents a monospecific forest, annotated with a single tree species label.
> - The proposed classification has 13 semantic classes, hierarchically grouping 18 tree species.
> - PureForest features 3D and 2D modalities:
> - High density Aerial Lidar Scanning (ALS) point clouds of high density: 10 pulses/m², or about 40 pts/m².
The Lidar data was acquired via the [Lidar HD program (2020-2025)](https://geoservices.ign.fr/lidarhd), an ambitious initiative undertaken by the IGN - the French Mapping Agency - to obtain a detailed 3D description of the French territory using ALS.
> - Very High Resolution (VHR) aerial images with RGB + Near-Infrared channels at a spatial resolution of 0.2 m (250 × 250 pixels).
Aerial images come from the [ORTHO HR®](https://geoservices.ign.fr/bdortho), a mosaic of aerial images acquired during national aerial surveys by the IGN.
Lidar and imagery data were acquired over several years in distinct programs, and up to 3 years might separate them. The years of acquisition are given as metadata.
The dataset is associated with a data paper: [PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests](https://arxiv.org/abs/2404.12064)
## Dataset content
<hr style='margin-top:-1em; margin-bottom:0' />
The PureForest dataset consists of a total of 135,569 patches: 69111 in the train set, 13523 in the val set, and 52935 in the test set.
Each patch includes a high-resolution aerial image (250 pixels x 250 pixels) at 0.2 m resolution, and a point cloud of high density aerial Lidar (10 pulses/m², ~40pts/m²).
Band order is near-infrared, red, green, blue. For convenience, the Lidar point clouds are vertically colorized with the aerial images.
VHR Aerial images (Near-Infrared, Red, Green) [ORTHO HR] | ALS points clouds [Lidar HD]
:-------------------------:|:-------------------------:
 | 
### Annotations
<hr style='margin-top:-1em; margin-bottom:0' />
Annotations were made at the forest level, and considering only monospecific forests. A semi-automatic approach was adopted in which forest polygons
were selected and then curated by expert photointerpreters from the IGN. The annotation polygons were selected from the [BD Forêt](https://inventaire-forestier.ign.fr/spip.php?article646),
a forest vector database of tree species occupation in France. Ground truths from the [French National Forest Inventory](https://inventaire-forestier.ign.fr/?lang=en)
were also used to improve the confidence in the purity of the forests.
| Class | Train (%) | Val (%) | Test (%) |
|-------|------------:|----------:|-----------:|
**(0) Deciduous oak**|22.92%|32.35%|52.59%
**(1) Evergreen oak**|16.80%|2.75%|19.61%
**(2) Beech**|10.14%|12.03%|7.62%
**(3) Chestnut**|4.83%|1.09%|0.38%
**(4) Black locust**|2.41%|2.40%|0.60%
**(5) Maritime pine**|6.61%|7.10%|3.85%
**(6) Scotch pine**|16.39%|17.95%|8.51%
**(7) Black pine**|6.30%|6.98%|3.64%
**(8) Aleppo pine**|5.83%|1.72%|0.83%
**(9) Fir**|0.14%|5.32%|0.05%
**(10) Spruce**|3.73%|4.64%|1.64%
**(11) Larch**|3.67%|3.73%|0.48%
**(12) Douglas**|0.23%|1.95%|0.20%
### Dataset extent and train/val/test split
<hr style='margin-top:-1em; margin-bottom:0' />
The annotation polygons were mostly sampled in the southern half of metropolitan France due to the partial availability of the Lidar HD data at the time of dataset creation.
They are scattered in 40 distinct French administrative departments and span a large diversity of territories and forests within each semantic class.
To define a common benchmark, we split the data into train, val, and test sets (70%-15%-15%) with stratification on semantic labels.
We address the high spatial autocorrelation inherent to geographic data by splitting at the annotation polygon level:
each forest exclusively belongs to either the train, val, or test set.

## Citation
<hr style='margin-top:-1em; margin-bottom:0' />
Please include a citation to the following Data Paper if PureForest was useful to your research:
```
@misc{gaydon2024pureforest,
title={PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests},
author={Charles Gaydon and Floryne Roche},
year={2024},
eprint={2404.12064},
archivePrefix={arXiv},
url={https://arxiv.org/abs/2404.12064}
primaryClass={cs.CV}
}
```
## Dataset license
<hr style='margin-top:-1em; margin-bottom:0' />
The "OPEN LICENCE 2.0/LICENCE OUVERTE" is a license created by the French government specifically for the purpose of facilitating the dissemination of open data by public administration.<br/>
This licence is governed by French law.<br/>
This licence has been designed to be compatible with any free licence that at least requires an acknowledgement of authorship, and specifically with the previous version of this licence as well as with the following licences: United Kingdom’s “Open Government Licence” (OGL), Creative Commons’ “Creative Commons Attribution” (CC-BY) and Open Knowledge Foundation’s “Open Data Commons Attribution” (ODC-BY).
许可证:etalab-2.0
友好名称:PureForest
样本量区间:100K < n < 1M
任务类别:
- 图像分类
- 其他
标签:
- IGN
- 航空
- 环境
- 多模态
- 地球观测
- 激光雷达(Lidar)
- ALS
- 点云
- 森林
- 树种
# PureForest:用于单优林树种分类的大规模航空激光雷达与航空影像数据集
> - PureForest数据集源自法国40个省的449片独立森林,主要分布于法国南部区域。
> - 该数据集包含135569个样本块,每个块尺寸为50m×50m,累计可利用面积达339平方千米。
> - 每个样本块对应一片单优林,仅标注单一树种标签。
> - 本次分类体系共包含13个语义类别,层级化涵盖18个树种。
> - PureForest具备三维与二维两种模态:
> - 高密度航空激光扫描(Aerial Lidar Scanning, ALS)点云:脉冲密度为10脉冲/平方米,约合40个点/平方米。
> 激光雷达数据采自[激光雷达高清计划(2020-2025)](https://geoservices.ign.fr/lidarhd),该计划由法国国家测绘局(IGN, Institut Géographique National)发起,旨在通过ALS获取法国领土的精细化三维描述。
> - 超高分辨率(Very High Resolution, VHR)航空影像:包含RGB与近红外(Near-Infrared)通道,空间分辨率为0.2m,影像尺寸为250×250像素。
> 航空影像源自[ORTHO HR®](https://geoservices.ign.fr/bdortho),该影像拼接产品由IGN通过全国航空测绘项目获取。
> 激光雷达与影像数据由不同项目在多年间采集,采集时间间隔最长可达3年,采集年份将作为元数据提供。
本数据集配套一篇数据论文:[PureForest:用于单优林树种分类的大规模航空激光雷达与航空影像数据集](https://arxiv.org/abs/2404.12064)
## 数据集内容
PureForest数据集总计包含135569个样本块:训练集69111个,验证集13523个,测试集52935个。
每个样本块包含一份分辨率为0.2m的高分辨率航空影像(250像素×250像素),以及一份高密度航空激光雷达点云(10脉冲/平方米,约40个点/平方米)。
影像波段顺序为:近红外、红、绿、蓝。为便于使用,激光雷达点云已通过航空影像进行垂直着色。
| VHR航空影像(近红外、红、绿)[ORTHO HR] | ALS点云[激光雷达高清计划] |
|:-------------------------:|:-------------------------:|
|  |  |
### 标注信息
标注工作以森林为单位开展,仅针对单优林。本数据集采用半自动标注流程:先筛选森林多边形,再由IGN的专业影像解译人员进行人工审核。标注多边形源自[BD Forêt](https://inventaire-forestier.ign.fr/spip.php?article646),该数据库是法国境内树种分布的矢量森林数据库。同时还采用了[法国国家森林资源清查](https://inventaire-forestier.ign.fr/?lang=en)的地面实测数据,以提升森林纯性标注的置信度。
| 类别 | 训练集占比(%) | 验证集占比(%) | 测试集占比(%) |
|-------|------------:|----------:|-----------:|
| (0) 落叶栎 | 22.92% | 32.35% | 52.59% |
| (1) 常绿栎 | 16.80% | 2.75% | 19.61% |
| (2) 山毛榉 | 10.14% | 12.03% | 7.62% |
| (3) 板栗 | 4.83% | 1.09% | 0.38% |
| (4) 刺槐 | 2.41% | 2.40% | 0.60% |
| (5) 海岸松 | 6.61% | 7.10% | 3.85% |
| (6) 欧洲赤松 | 16.39% | 17.95% | 8.51% |
| (7) 黑松 | 6.30% | 6.98% | 3.64% |
| (8) 阿勒颇松 | 5.83% | 1.72% | 0.83% |
| (9) 冷杉 | 0.14% | 5.32% | 0.05% |
| (10) 云杉 | 3.73% | 4.64% | 1.64% |
| (11) 落叶松 | 3.67% | 3.73% | 0.48% |
| (12) 花旗松 | 0.23% | 1.95% | 0.20% |
### 数据集覆盖范围与训练/验证/测试集划分
由于数据集构建时激光雷达高清计划的数据仅部分开放,标注多边形主要采样于法国本土的南部区域。这些标注分布于40个不同的法国行政省,覆盖了各类地貌与森林类型,且每个语义类别内部也具备丰富的地域多样性。
为构建统一的评测基准,我们基于语义标签进行分层抽样,将数据集按照70%-15%-15%的比例划分为训练集、验证集与测试集。针对地理数据固有的高度空间自相关性问题,我们以标注多边形为单位进行划分:每一片森林仅属于训练集、验证集或测试集中的某一个集合。

## 引用方式
若PureForest数据集对你的研究有所帮助,请引用以下数据论文:
@misc{gaydon2024pureforest,
title={PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests},
author={Charles Gaydon and Floryne Roche},
year={2024},
eprint={2404.12064},
archivePrefix={arXiv},
url={https://arxiv.org/abs/2404.12064},
primaryClass={cs.CV}
}
## 数据集许可证
本数据集采用“开放许可证2.0(LICENCE OUVERTE/OPEN LICENCE 2.0)”,该许可证由法国政府专为推动公共行政部门开放数据传播而制定。
本许可证受法国法律管辖。
本许可证旨在兼容所有至少要求注明原作者的自由许可证,具体兼容的许可证包括本许可证的旧版本、英国“开放政府许可证(Open Government Licence, OGL)”、知识共享“署名许可(Creative Commons Attribution, CC-BY)”以及开放知识基金会“开放数据 Commons 署名许可(Open Data Commons Attribution, ODC-BY)”。
提供机构:
IGNF
原始信息汇总
数据集概述
名称: PureForest
许可证: etalab-2.0
大小: 100K<n<1M
任务类别:
- 图像分类
- 其他
标签:
- IGN
- 航空
- 环境
- 多模态
- 地球观测
- 激光雷达
- ALS
- 点云
- 森林
- 树种
数据集详细信息
描述:
- PureForest 数据集包含来自法国40个部门的449个不同森林的135,569个50m x 50m的补丁,覆盖总面积339平方公里。
- 每个补丁代表一个单一种类的森林,并标注有单一树种标签。
- 数据集包含13个语义类别,分层聚合了18种树种。
数据内容:
- 高密度航空激光雷达扫描(ALS)点云,密度为10脉冲/平方米,约40点/平方米。
- 具有RGB + 近红外通道的非常高分辨率(VHR)航空图像,空间分辨率为0.2米。
数据集划分:
- 训练集: 69,111个补丁
- 验证集: 13,523个补丁
- 测试集: 52,935个补丁
注释:
数据集范围和训练/验证/测试分割:
- 注释多边形主要在法国南部半部的40个行政部门中采样。
- 数据集按70%-15%-15%的比例分为训练、验证和测试集,按语义标签进行分层。
引用信息
@misc{gaydon2024pureforest, title={PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests}, author={Charles Gaydon and Floryne Roche}, year={2024}, eprint={2404.12064}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2404.12064} primaryClass={cs.CV} }
搜集汇总
数据集介绍

构建方式
PureForest数据集的构建基于法国40个部门中的449个不同森林,覆盖面积达339平方公里。每个50米x50米的补丁代表一个单一树种的森林,并附有相应的树种标签。数据集融合了高密度航空激光扫描(ALS)点云和超高分辨率(VHR)航空图像,分别来自Lidar HD项目和ORTHO HR®项目。点云数据密度为10脉冲/平方米,约40点/平方米,而图像分辨率为0.2米,包含红、绿、蓝和近红外四个通道。数据采集跨越数年,最长时间间隔可达三年,采集年份作为元数据提供。
特点
PureForest数据集的显著特点在于其多模态数据融合,包括高密度激光雷达点云和超高分辨率航空图像,为树种分类提供了丰富的信息源。数据集包含135,569个补丁,每个补丁均标注单一树种,涵盖13个语义类别,分层聚合了18种树种。此外,数据集的构建考虑了地理数据的高空间自相关性,通过在标注多边形级别进行训练、验证和测试集的划分,确保了数据集的科学性和实用性。
使用方法
PureForest数据集适用于树种分类任务,用户可以通过访问数据集的HuggingFace页面下载数据。每个补丁包含一个250像素x250像素的高分辨率航空图像和相应的高密度激光雷达点云。图像数据按近红外、红、绿、蓝的顺序排列,点云数据则垂直着色以方便使用。数据集已划分为训练集、验证集和测试集,比例为70%-15%-15%,用户可根据需要进行进一步处理和分析。
背景与挑战
背景概述
PureForest数据集由法国国家地理与森林信息研究所(IGN)主导,汇集了449个位于法国南部40个部门的单一树种森林数据。该数据集包含135,569个50米x50米的补丁,覆盖了339平方公里的可利用区域。每个补丁代表一个单一树种森林,并标注了单一树种标签。数据集的核心研究问题在于利用高密度航空激光扫描(ALS)点云和超高分辨率(VHR)航空图像,实现对单一树种森林的树种分类。该数据集的创建旨在推动地球观测技术在森林生态学和环境科学中的应用,特别是在树种分类和森林管理领域。
当前挑战
PureForest数据集在构建过程中面临多项挑战。首先,数据采集涉及多个年份和不同的项目,导致激光雷达和图像数据之间可能存在长达三年的时差。其次,数据集的标注依赖于半自动方法和专家解释,这增加了标注的复杂性和不确定性。此外,数据集的分割策略需考虑地理数据的高空间自相关性,确保训练、验证和测试集的独立性。最后,数据集的广泛应用需要克服多模态数据融合和处理的技术难题,以提高树种分类的准确性和鲁棒性。
常用场景
经典使用场景
在林业科学和遥感领域,PureForest数据集以其大规模的航空激光雷达(ALS)和航空影像数据而著称。该数据集的经典使用场景主要集中在单一种类森林的树种分类任务上。通过结合高密度的ALS点云数据和超高分辨率的航空影像,研究人员能够构建精确的树种分类模型,从而实现对森林生态系统的精细化管理。
解决学术问题
PureForest数据集解决了在单一种类森林中树种分类的学术难题。传统的树种识别方法依赖于地面调查,耗时且成本高昂。该数据集通过提供大规模、高精度的遥感数据,使得基于机器学习的树种分类成为可能,极大地提升了分类的准确性和效率。这一突破不仅推动了林业科学的发展,也为全球森林资源的监测和管理提供了新的工具。
衍生相关工作
PureForest数据集的发布催生了一系列相关研究工作。例如,有研究者利用该数据集开发了基于深度学习的树种分类模型,显著提高了分类精度。此外,还有研究探讨了如何利用多模态数据融合技术,进一步提升分类性能。这些研究不仅丰富了林业科学的研究方法,也为其他领域的多模态数据处理提供了借鉴。
以上内容由遇见数据集搜集并总结生成



