five

IGNF/PureForest|林业遥感数据集|机器学习数据集

收藏
hugging_face2024-05-14 更新2024-04-19 收录
林业遥感
机器学习
下载链接:
https://hf-mirror.com/datasets/IGNF/PureForest
下载链接
链接失效反馈
资源简介:
PureForest数据集是一个大型航空激光雷达和航空影像数据集,专门用于单一树种森林的树种分类。该数据集包含来自法国40个部门的449个森林的135,569个50m x 50m的补丁,每个补丁都标注了单一树种标签。数据集提供13个语义类别,涵盖18种树种。数据集包括高密度航空激光雷达扫描(ALS)点云和非常高分辨率(VHR)航空图像,这些图像具有RGB和近红外通道,分辨率为0.2m。此外,数据集详细划分了训练、验证和测试集,并提供了各集的树种分类分布。
提供机构:
IGNF
原始信息汇总

数据集概述

名称: PureForest

许可证: etalab-2.0

大小: 100K<n<1M

任务类别:

  • 图像分类
  • 其他

标签:

  • IGN
  • 航空
  • 环境
  • 多模态
  • 地球观测
  • 激光雷达
  • ALS
  • 点云
  • 森林
  • 树种

数据集详细信息

描述:

  • PureForest 数据集包含来自法国40个部门的449个不同森林的135,569个50m x 50m的补丁,覆盖总面积339平方公里。
  • 每个补丁代表一个单一种类的森林,并标注有单一树种标签。
  • 数据集包含13个语义类别,分层聚合了18种树种。

数据内容:

  • 高密度航空激光雷达扫描(ALS)点云,密度为10脉冲/平方米,约40点/平方米。
  • 具有RGB + 近红外通道的非常高分辨率(VHR)航空图像,空间分辨率为0.2米。

数据集划分:

  • 训练集: 69,111个补丁
  • 验证集: 13,523个补丁
  • 测试集: 52,935个补丁

注释:

  • 注释采用半自动方法,由IGN的专家照片解释员进行森林多边形的选取和校正。
  • 使用BD Forêt法国国家森林清查的地面实况数据进行验证。

数据集范围和训练/验证/测试分割:

  • 注释多边形主要在法国南部半部的40个行政部门中采样。
  • 数据集按70%-15%-15%的比例分为训练、验证和测试集,按语义标签进行分层。

引用信息

@misc{gaydon2024pureforest, title={PureForest: A Large-Scale Aerial Lidar and Aerial Imagery Dataset for Tree Species Classification in Monospecific Forests}, author={Charles Gaydon and Floryne Roche}, year={2024}, eprint={2404.12064}, archivePrefix={arXiv}, url={https://arxiv.org/abs/2404.12064} primaryClass={cs.CV} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
PureForest数据集的构建基于法国40个部门中的449个不同森林,覆盖面积达339平方公里。每个50米x50米的补丁代表一个单一树种的森林,并附有相应的树种标签。数据集融合了高密度航空激光扫描(ALS)点云和超高分辨率(VHR)航空图像,分别来自Lidar HD项目和ORTHO HR®项目。点云数据密度为10脉冲/平方米,约40点/平方米,而图像分辨率为0.2米,包含红、绿、蓝和近红外四个通道。数据采集跨越数年,最长时间间隔可达三年,采集年份作为元数据提供。
特点
PureForest数据集的显著特点在于其多模态数据融合,包括高密度激光雷达点云和超高分辨率航空图像,为树种分类提供了丰富的信息源。数据集包含135,569个补丁,每个补丁均标注单一树种,涵盖13个语义类别,分层聚合了18种树种。此外,数据集的构建考虑了地理数据的高空间自相关性,通过在标注多边形级别进行训练、验证和测试集的划分,确保了数据集的科学性和实用性。
使用方法
PureForest数据集适用于树种分类任务,用户可以通过访问数据集的HuggingFace页面下载数据。每个补丁包含一个250像素x250像素的高分辨率航空图像和相应的高密度激光雷达点云。图像数据按近红外、红、绿、蓝的顺序排列,点云数据则垂直着色以方便使用。数据集已划分为训练集、验证集和测试集,比例为70%-15%-15%,用户可根据需要进行进一步处理和分析。
背景与挑战
背景概述
PureForest数据集由法国国家地理与森林信息研究所(IGN)主导,汇集了449个位于法国南部40个部门的单一树种森林数据。该数据集包含135,569个50米x50米的补丁,覆盖了339平方公里的可利用区域。每个补丁代表一个单一树种森林,并标注了单一树种标签。数据集的核心研究问题在于利用高密度航空激光扫描(ALS)点云和超高分辨率(VHR)航空图像,实现对单一树种森林的树种分类。该数据集的创建旨在推动地球观测技术在森林生态学和环境科学中的应用,特别是在树种分类和森林管理领域。
当前挑战
PureForest数据集在构建过程中面临多项挑战。首先,数据采集涉及多个年份和不同的项目,导致激光雷达和图像数据之间可能存在长达三年的时差。其次,数据集的标注依赖于半自动方法和专家解释,这增加了标注的复杂性和不确定性。此外,数据集的分割策略需考虑地理数据的高空间自相关性,确保训练、验证和测试集的独立性。最后,数据集的广泛应用需要克服多模态数据融合和处理的技术难题,以提高树种分类的准确性和鲁棒性。
常用场景
经典使用场景
在林业科学和遥感领域,PureForest数据集以其大规模的航空激光雷达(ALS)和航空影像数据而著称。该数据集的经典使用场景主要集中在单一种类森林的树种分类任务上。通过结合高密度的ALS点云数据和超高分辨率的航空影像,研究人员能够构建精确的树种分类模型,从而实现对森林生态系统的精细化管理。
解决学术问题
PureForest数据集解决了在单一种类森林中树种分类的学术难题。传统的树种识别方法依赖于地面调查,耗时且成本高昂。该数据集通过提供大规模、高精度的遥感数据,使得基于机器学习的树种分类成为可能,极大地提升了分类的准确性和效率。这一突破不仅推动了林业科学的发展,也为全球森林资源的监测和管理提供了新的工具。
衍生相关工作
PureForest数据集的发布催生了一系列相关研究工作。例如,有研究者利用该数据集开发了基于深度学习的树种分类模型,显著提高了分类精度。此外,还有研究探讨了如何利用多模态数据融合技术,进一步提升分类性能。这些研究不仅丰富了林业科学的研究方法,也为其他领域的多模态数据处理提供了借鉴。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Wafer Defect

该数据集包含了七个主要类别的晶圆缺陷,分别是:BLOCK ETCH、COATING BAD、PARTICLE、PIQ PARTICLE、PO CONTAMINATION、SCRATCH和SEZ BURNT。这些类别涵盖了晶圆在生产过程中可能出现的多种缺陷类型,每一种缺陷都有其独特的成因和表现形式。数据集不仅在类别数量上具有多样性,而且在样本的多样性和复杂性上也展现了其广泛的应用潜力。每个类别的样本均经过精心标注,确保了数据的准确性和可靠性。

github 收录

rule34lol-images-part1

该数据集包含来自rule34.lol图像板的196,000个图像文件的元数据。元数据包括URL、标签、文件信息和点赞数。实际图像文件存储在zip存档中,每个存档包含1000个图像。该数据集是更大集合的一部分,分为Part 1和Part 2。数据集采用CC0许可,允许免费使用、修改和分发,无需署名。

huggingface 收录