five

GeoPlant

收藏
arXiv2024-08-26 更新2024-08-28 收录
下载链接:
https://www.kaggle.com/datasets/geo-plant
下载链接
链接失效反馈
官方服务:
资源简介:
GeoPlant数据集由法国国家信息与自动化研究所等机构创建,是一个用于植物物种预测的欧洲尺度数据集。该数据集包含超过500万条异质性仅存在记录和9万条标准化存在-不存在调查记录,覆盖超过1万种植物。数据集内容包括多种环境栅格(如海拔、人类足迹和土壤)、Sentinel-2 RGB和NIR卫星图像、20年气候变量时间序列和Landsat卫星时间序列。数据集的创建旨在通过集成多模态遥感数据,解决物种分布模型中的数据异质性和不平衡问题,从而提高生态监测和保护的效率。

The GeoPlant dataset, developed by institutions such as the French National Institute for Informatics and Automation (INRIA), is a Europe-scale dataset for plant species prediction. This dataset contains over 5 million heterogeneous presence-only records and 90,000 standardized presence-absence survey records, covering more than 10,000 plant species. The dataset includes multiple types of environmental grids (e.g., elevation, human footprint, and soil data), Sentinel-2 RGB and NIR satellite imagery, 20-year time series of climatic variables, and Landsat satellite time series. The dataset was created to address the issues of data heterogeneity and imbalance in species distribution models by integrating multi-modal remote sensing data, thereby improving the efficiency of ecological monitoring and conservation.
提供机构:
法国国家信息与自动化研究所
创建时间:
2024-08-26
搜集汇总
数据集介绍
main_image_url
构建方式
GeoPlant数据集的构建方式旨在解决高分辨率空间监测生物多样性的挑战。该数据集整合了超过500万个机会性物种观察记录和近9万个详尽的物种存在-缺失调查记录,涵盖了欧洲超过10,000个物种。为了提供丰富的环境预测变量,数据集还包括了多样化的环境栅格数据(如海拔、人类足迹、土壤等),Sentinel-2 RGB和NIR卫星图像(分辨率为10米),以及从2000年到2019年的气候变量时间序列。此外,还提供了Landsat计划的卫星时间序列数据。这些数据的整合为物种分布模型提供了前所未有的多模态输入,从而推动了物种分布建模领域的研究。
特点
GeoPlant数据集的特点在于其高分辨率、多模态和广泛的覆盖范围。数据集涵盖了38个欧洲国家,覆盖了从阿尔卑斯山到波罗的海等八个生物地理区域。数据集包括超过5,000万个仅存在记录和近9万个详尽的物种存在-缺失调查记录,以及丰富的环境栅格数据、卫星图像和气候时间序列。这些数据的高分辨率和多样性使得GeoPlant数据集成为物种分布建模领域的一个重要资源,为研究物种分布模式提供了强有力的支持。
使用方法
使用GeoPlant数据集时,研究人员可以访问包含物种观察和环境预测变量的数据集,以及一个开放的基准测试平台。数据集的使用方法包括:1. 下载并预处理数据;2. 使用提供的数据加载器加载环境预测变量和物种观察数据;3. 使用Malpolon框架进行深度SDM训练;4. 使用基准测试平台上的Jupyter笔记本进行模型训练和评估。GeoPlant数据集的开放性和易用性使其成为研究和开发物种分布建模方法的一个理想平台。
背景与挑战
背景概述
GeoPlant数据集是一项旨在解决生态知识和保护工作受限的挑战性项目。该数据集由INRIA、Université Paul Valéry、Université de Montpellier和CIRAD等机构的Lukas Picek等人设计开发,于2024年8月发布。它包含超过5百万条异构的“仅存在”记录和9万条详尽的“存在-不存在”调查记录,涵盖了超过1万种物种,即欧洲大部分的植物。该数据集旨在帮助物种分布模型(SDMs)预测物种的空间分布,并解决过去十年中可用的丰富但异构数据(包括数百万个偶然的物种观测和标准化的调查以及多模态遥感数据)的整合挑战。GeoPlant数据集为SDMs提供了丰富的环境栅格数据,如土地使用、人类足迹、生物气候、土壤和海拔,以及Sentinel-2 RGB和NIR卫星图像,以及Landsat ARD卫星时间序列。此外,它还提供了2000年至2019年的气候变量月度时间序列。GeoPlant数据集的影响力在于它为SDMs提供了高空间分辨率(10-50米)的欧洲规模数据集,包括超过1万种物种(即欧洲大部分的植物),并提供了Sentinel-2 RGB和NIR卫星图像,以及20年的气候变量时间序列和Landsat卫星时间序列。
当前挑战
GeoPlant数据集面临的挑战包括解决领域问题的挑战和构建过程中的挑战。解决领域问题的挑战包括:1)整合丰富的但异构的数据,包括数百万个偶然的物种观测和标准化的调查,以及多模态遥感数据;2)在高空间分辨率下,特别是在10-50米的分辨率下,进行物种分布预测。构建过程中的挑战包括:1)处理大量的“仅存在”数据,这些数据不指示未观测物种的存在,并且严重偏向于观察者密集的地区;2)整合不同空间或时间分辨率的数据,并将其集成到深度学习架构中;3)开发强大的基线方法,以供研究人员和开发人员使用。为了解决这些挑战,GeoPlant数据集提供了丰富的环境栅格数据、卫星图像和气候变量时间序列,并提供了Kaggle上的开放可访问的SDM基准和一套强大的基线方法。
常用场景
经典使用场景
GeoPlant数据集为物种分布模型(SDM)的研究提供了一个全面的数据基础,特别是在高空间分辨率(10-50米)的欧洲范围内。该数据集包含了超过5M的“仅存在”记录和9万份详尽的“存在-不存在”调查记录,涵盖了超过10k种物种。这些数据与多样的环境栅格(如海拔、人类足迹和土壤)相结合,为SDM提供了丰富的预测变量。此外,数据集还提供了10米分辨率的Sentinel-2 RGB和近红外卫星图像、20年气候变量时间序列和Landsat计划中的卫星时间序列,使得该数据集在物种分布建模领域具有独特的优势。
解决学术问题
GeoPlant数据集解决了传统SDM在数据整合方面的挑战,特别是如何整合过去十年中出现的数百万个偶然物种观察和标准化调查,以及多模态遥感数据。通过提供如此庞大的数据集,研究者可以更好地理解物种分布模式,并提高预测模型的准确性。此外,GeoPlant数据集通过标准化“存在-不存在”数据,使得模型评估对“仅存在”数据的许多偏差具有鲁棒性。
衍生相关工作
GeoPlant数据集的发布为物种分布建模领域带来了新的研究方向。基于该数据集的研究工作已经取得了显著进展,例如,使用深度学习技术从Sentinel-2图像时间序列中进行深度物种分布建模,以及评估不同SDM方法的预测性能。GeoPlant数据集的开放性和多样性为研究者提供了丰富的资源,有助于推动该领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作