iNaturalist datasets
收藏github2023-12-12 更新2024-05-31 收录
下载链接:
https://github.com/djordjepmihajlovic/Machine-Learning-Species-Analysis
下载链接
链接失效反馈官方服务:
资源简介:
使用多种机器学习方法对iNaturalist数据集进行全面的物种分布分析。
A comprehensive species distribution analysis of the iNaturalist dataset using various machine learning methods.
创建时间:
2023-10-05
原始信息汇总
数据集结构与内容概述
数据集结构
文件夹结构
-
/src: 包含项目中用于生成结果的所有代码,分为两个子文件夹:
- models: 包含所有调查的机器学习模型及其实现。
- data preparation: 包含用于数据调查的代码,如寻找稀疏/密集种群、调查顶级物种以及为训练适当分析生物气候和气候数据。
-
/data: 包含用于训练和测试模型的所有数据,包括给定和生成的数据。
-
/results: 包含发现的结果和可视化方法(使用seaborn和matplotlib)。
数据集内容
模型相关代码
-
Feed-forward neural network:
- 2特征模型:运行
neural_network.py,设置变量p为"analyze"或"plot"以进行模型分析或绘制物种预测分布。 - 8特征模型:运行
neural_network_5.py,同样设置p变量。
- 2特征模型:运行
-
Random Forest:
- 2特征模型:运行
random_forest.py。 - 8特征模型:运行
v2_random_forest.py。
- 2特征模型:运行
-
Logistic regression:
- 2特征模型:运行
log_regression_model.py。 - 8特征模型:运行
lr_8_features.py。 - 分布图:运行
lr_plot.py。
- 2特征模型:运行
-
K-Nearest Neighbour:
- 2特征模型:运行
knn_model.py。 - 8特征模型:运行
knn_8_features.py。 - 分布图:运行
knn_plot.py。
- 2特征模型:运行
-
Gaussian:
- 运行
gaussian_model.py进行基本预测。 - 分布图:运行
gaussian_contours.py。
- 运行
数据准备相关代码
-
物种分布分析:
- 运行
species_distribution_analysis.py分析不同类型的物种分布。
- 运行
-
生成顶级物种大陆分析:
- 运行
create_df_continent.py和top_species_analysis.py生成顶级物种数据。
- 运行
-
生成8特征数据:
- 运行
species_distribution_analysis.py从WorldClim提取数据。
- 运行
-
生成温度异常分数:
- 运行
temperature_anomaly.py生成温度异常图和相关数据。
- 运行
搜集汇总
数据集介绍

构建方式
iNaturalist数据集的构建依托于全球范围内的物种分布数据,结合了生物气候和气候数据,通过机器学习模型进行数据准备和分析。数据集的构建过程包括从WorldClim等数据源中提取特征,生成包含8个特征的训练数据,并通过Python脚本进行数据预处理和特征工程。数据被分为稀疏和密集种群,以及不同分布类型的物种,最终生成了用于模型训练和测试的CSV文件。
特点
iNaturalist数据集的特点在于其多维度的特征表示,涵盖了经纬度、生物气候变量等多种信息。数据集不仅提供了物种的地理分布数据,还包含了温度异常等气候相关指标,能够支持复杂的物种分布预测任务。此外,数据集还特别标注了‘顶级物种’,即训练数据中超过2000个数据点的物种,为研究提供了更丰富的分析维度。
使用方法
iNaturalist数据集的使用方法主要通过Python脚本实现,用户可以通过运行不同的脚本文件来训练和测试多种机器学习模型,包括前馈神经网络、随机森林、逻辑回归、K近邻和高斯模型。每个模型脚本均支持两种模式:分析模式和绘图模式,用户可以通过修改变量‘p’来切换模式。数据准备脚本则用于生成和保存预处理后的数据文件,支持物种分布类型分析、顶级物种分析以及8特征数据的生成。
背景与挑战
背景概述
iNaturalist数据集由加州科学院和加州大学伯克利分校的研究团队于2017年创建,旨在通过众包的方式收集全球范围内的生物多样性数据。该数据集的核心研究问题在于如何利用机器学习技术对物种分布进行精确预测,从而为生态学和生物多样性保护提供科学依据。iNaturalist数据集不仅包含了大量的物种图像,还整合了地理位置、气候数据等多维度信息,极大地推动了物种分布模型和生态位建模领域的研究进展。其影响力不仅限于学术界,还为公众参与科学研究和环境保护提供了重要平台。
当前挑战
iNaturalist数据集在解决物种分布预测问题时面临多重挑战。首先,物种分布数据具有高度的空间异质性和不平衡性,某些地区的物种记录较为密集,而其他地区则相对稀疏,这导致模型训练时容易出现偏差。其次,数据集中的物种标签依赖于公众的众包标注,可能存在噪声和不准确性,增加了模型训练的复杂性。此外,构建过程中需要整合多种数据源,如气候数据、地理信息等,数据的预处理和特征提取过程复杂且耗时。这些挑战要求研究者在模型设计和数据处理上具备高度的创新性和严谨性。
常用场景
经典使用场景
iNaturalist数据集在物种分布分析领域具有广泛的应用,尤其是在全球范围内研究物种的地理分布模式时。通过结合机器学习模型,如随机森林、前馈神经网络和逻辑回归等,研究者能够利用该数据集中的地理坐标和生物气候数据,预测特定物种的潜在分布区域。这种分析不仅有助于理解物种的生态位,还能为生物多样性保护提供科学依据。
实际应用
iNaturalist数据集的实际应用场景包括生物多样性监测、自然保护区规划以及入侵物种管理。例如,利用该数据集中的物种分布数据,保护区管理者可以识别关键栖息地,制定更有效的保护策略。此外,该数据集还可用于预测气候变化对物种分布的影响,帮助决策者提前采取适应性措施,以应对未来的生态挑战。
衍生相关工作
iNaturalist数据集衍生了许多经典研究工作,特别是在物种分布建模和生态位预测领域。例如,基于该数据集的研究开发了多种机器学习算法,如随机森林和前馈神经网络,用于预测物种的地理分布。此外,该数据集还被用于研究全球气候变化对物种分布的影响,推动了生态学和保护生物学领域的跨学科研究。这些工作不仅提升了物种分布预测的准确性,还为生物多样性保护提供了新的科学工具。
以上内容由遇见数据集搜集并总结生成



