GeoLifeCLEF 2020 Dataset
收藏arXiv2020-04-09 更新2024-06-21 收录
下载链接:
https://www.aicrowd.com/challenges/lifeclef-2020-geo
下载链接
链接失效反馈官方服务:
资源简介:
GeoLifeCLEF 2020数据集是由法国国家地理和林业信息研究所等机构合作创建的,包含超过190万条物种观测数据,涵盖31,435种植物和动物。数据集中的每条观测都与高分辨率的遥感图像(如RGB-IR图像、土地覆盖和海拔数据)相匹配,这些图像的空间分辨率为1米每像素。数据集的创建过程涉及从公民科学项目中收集数据,并通过严格的筛选和匹配过程确保数据质量。该数据集主要用于支持物种分布模型的研究,帮助科学家理解物种的地理分布,从而为生物多样性保护提供决策支持。
The GeoLifeCLEF 2020 Dataset was collaboratively developed by institutions including the French National Institute of Geographic and Forestry Information. It contains more than 1.9 million species occurrence records, covering 31,435 plant and animal species. Each occurrence record in the dataset is paired with high-resolution remote sensing imagery, including RGB-IR images, land cover and elevation data, with a spatial resolution of 1 meter per pixel. The dataset was constructed by collecting data from citizen science projects, with rigorous filtering and matching procedures applied to ensure data quality. This dataset is primarily utilized to support research on species distribution models, aiding scientists in understanding the geographic distributions of species and providing decision-making support for biodiversity conservation.
提供机构:
法国国家地理和林业信息研究所
创建时间:
2020-04-09
搜集汇总
数据集介绍

构建方式
在生物多样性保护领域,物种分布模型的构建依赖于高质量的环境变量与物种观测数据。GeoLifeCLEF 2020数据集通过整合美国与法国的公民科学项目数据,系统性地采集了约190万条物种观测记录。这些记录源自iNaturalist和Pl@ntnet平台,经过严格筛选,仅保留坐标精度高于30米且具备有效遥感影像覆盖的观测点。环境变量方面,数据集融合了高分辨率遥感影像(RGB-IR)、土地覆盖数据及海拔信息,空间分辨率统一为1米;同时纳入传统的低分辨率气候与土壤变量,形成多层次环境特征体系。数据划分采用空间区块保留策略,以5公里×5公里网格为单位随机分配训练集与测试集,有效缓解空间偏差对模型评估的影响。
使用方法
研究人员可利用该数据集构建基于位置的物种推荐模型,推动物种分布预测的前沿进展。使用流程包括从提供的CSV文件加载物种观测坐标与标识,通过结构化目录系统读取对应的高分辨率环境切片(存储为NumPy数组)及低分辨率栅格变量。模型训练应遵循数据集中预设的空间区块划分,确保评估时能有效检验模型在新地理区域的泛化性能。评估指标采用自适应Top-K准确率,以反映不同地点物种丰富度的自然变异,其中K值设定为30,对应法国植物群落调查的平均物种数。数据集配套的代码库辅助环境变量提取与数据预处理,支持从端到端的机器学习管道构建,适用于遥感生态学、保护生物学及空间预测建模等多学科研究场景。
背景与挑战
背景概述
GeoLifeCLEF 2020数据集由法国国家信息与自动化研究所、蒙彼利埃大学及微软研究院等机构于2020年联合创建,旨在推动物种分布建模领域的研究。该数据集整合了来自iNaturalist和Pl@ntnet等公民科学项目的190万条物种观测记录,覆盖了31,435种动植物,并首次将高分辨率遥感影像、土地覆盖数据及海拔信息与传统气候土壤变量相结合。其核心研究问题聚焦于如何利用环境协变量预测物种的地理分布,为生物多样性保护和生态决策提供了关键数据支持,显著提升了物种分布模型的可访问性与研究深度。
当前挑战
该数据集致力于解决物种分布预测中的关键挑战,即如何从高维异构环境数据中准确推断物种的存在概率,这要求模型能够融合遥感影像的多尺度特征与气候土壤的宏观变量。在构建过程中,研究人员面临数据整合的复杂性,包括协调美法两国不同的土地覆盖分类体系、处理遥感影像的空间对齐与分辨率统一,以及应对公民科学数据固有的空间偏差与物种观测不均衡问题。此外,数据集的庞大规模(约840GB)与仅包含物种出现记录(缺乏缺失确认)的特性,也为模型训练与评估带来了计算与统计上的双重挑战。
常用场景
经典使用场景
在生物多样性保护与生态学研究中,GeoLifeCLEF 2020数据集为物种分布建模提供了前所未有的高分辨率环境变量支持。该数据集整合了190万条物种观测记录,并配以米级精度的遥感影像、土地覆盖数据及海拔信息,使得研究者能够深入探索环境特征与物种出现之间的复杂关联。其经典应用场景在于构建和验证基于位置的物种推荐模型,通过机器学习方法预测特定地理区域内可能存在的动植物种类,从而推动物种分布预测的精度提升。
解决学术问题
该数据集有效应对了物种分布建模中环境变量分辨率不足与数据可及性有限的学术挑战。传统物种分布模型常依赖公里级的气候与土壤数据,难以捕捉局部生境异质性,而GeoLifeCLEF 2020通过提供高分辨率遥感影像与土地覆盖信息,使研究者能够分析微尺度环境因子对物种分布的影响。这不仅促进了高分辨率遥感在生态建模中的创新应用,也为理解生物地理格局和物种-环境关系提供了更精细的数据基础,对保护生物学和宏观生态学具有重要理论意义。
实际应用
在实际生态保护与自然资源管理领域,GeoLifeCLEF 2020数据集支持了基于数据的决策制定。例如,在规划自然保护区或评估土地利用变化对生物多样性的影响时,该数据集可用于预测特定区域的物种组成,帮助识别关键栖息地或受威胁物种的潜在分布区。此外,其整合的公民科学观测数据与高分辨率环境变量,为政府机构和非营利组织提供了工具,以监测物种分布动态、评估保护措施成效,并支持气候变化背景下的适应性管理策略。
数据集最近研究
最新研究方向
在生物多样性保护与生态建模领域,GeoLifeCLEF 2020数据集凭借其融合高分辨率遥感影像与物种分布数据的独特优势,正推动物种分布模型(SDM)研究向精细化与智能化方向演进。当前前沿研究聚焦于利用深度学习技术,整合多模态环境变量(如RGB-IR影像、土地覆盖与海拔数据),以提升物种在复杂地理环境中的预测精度。该数据集亦促进了跨学科合作,将计算机视觉与生态学紧密结合,通过GeoLifeCLEF竞赛平台激发创新算法,助力全球生物多样性监测与气候变化响应策略的制定,为可持续生态管理提供科学依据。
相关研究论文
- 1The GeoLifeCLEF 2020 Dataset法国国家地理和林业信息研究所 · 2020年
以上内容由遇见数据集搜集并总结生成



