Fungi machine learning dataset

github2021-05-05 更新2024-05-31 收录

下载链接：

https://github.com/bolddp/fungi-machinelearning-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于瑞典本土真菌的机器学习数据集，最初是为了创建一个可搜索的真菌数据库而编译的。数据集包含超过800种真菌的信息，每种真菌描述了多达35个属性。数据集被优化用于机器学习，并提供了100个样本的随机分布属性。

This is a machine learning dataset concerning native fungi in Sweden, originally compiled to create a searchable fungal database. The dataset encompasses information on over 800 species of fungi, with each species described by up to 35 attributes. Optimized for machine learning applications, the dataset also provides a random distribution of attributes across 100 samples.

创建时间：

2019-01-27

原始信息汇总

Fungi machine learning dataset

数据集概述

目的: 用于机器学习的瑞典本土真菌数据集。
背景: 数据集源自2000年代初期创建的可搜索真菌数据库，包含约800种真菌的信息，数据来源于两本书籍。

数据格式

原始数据: 包含超过800种真菌，每种真菌描述了多达35个属性，格式为JSON，文件名为data/fungi-original.json。
机器学习优化数据: 为每种真菌创建了100个样本，属性值随机分布，文件名为data/fungi-ml.txt，最后一列表示物种索引，需通过classes.txt文件进行物种拉丁名交叉引用。

附加资源

Jupyter Notebook: 包含一个用于加载数据集并进行准确性测试的Notebook，文件名为jupyter/fungi-dataset-naive-bayes.ipynb，测试准确率约为95-96%。

使用意图

原始意图: 构建一个基于此数据集的网站，用户可以描述发现的真菌并获取可能的匹配列表。
当前状态: 由于其他项目占用时间，目前不计划进一步开发此数据集。

搜集汇总

数据集介绍

构建方式

Fungi machine learning dataset的构建始于2000年代初，作者通过手动录入来自两本瑞典真菌学著作的数据，创建了一个包含约800种真菌的数据库。这些数据最初被用于名为SvampCentralen的软件中，并以CD形式分发。尽管该项目最终被放弃，但作者在2018年意外发现了一份旧硬盘上的数据库副本，并将其转换为适用于机器学习的格式。数据集中的每个物种由多达35个属性描述，并通过随机生成100个样本的方式扩展，以模拟不同观察者对同一物种的描述。

特点

该数据集的特点在于其丰富的物种多样性，涵盖了瑞典本土的800多种真菌。每个物种的属性描述包括枚举、集合和颜色范围等多种类型，确保了数据的多样性和复杂性。为了适应机器学习的需求，数据集通过随机生成样本的方式扩展，每个物种生成100个样本，模拟了真实观察场景中的多样性。数据集以JSON和文本格式提供，便于不同应用场景下的使用。

使用方法

该数据集的使用方法较为灵活，用户可以通过加载JSON或文本格式的数据文件进行机器学习模型的训练和测试。数据集附带了一个Jupyter Notebook示例，展示了如何使用朴素贝叶斯算法对数据进行分类，并获得了约95-96%的准确率。此外，数据集还可用于构建真菌识别系统，用户可以通过输入真菌的描述特征，获取可能的物种匹配列表。对于进一步的使用问题，用户可以通过GitHub提交问题或直接联系作者获取帮助。

背景与挑战

背景概述

Fungi machine learning dataset 是一个专注于瑞典本土真菌的机器学习数据集，由一位独立研究人员在2000年代初创建。该数据集的初衷是为了建立一个可搜索的真菌数据库，数据来源于两本权威的真菌学书籍。研究人员手动输入了约800种真菌的信息，并开发了名为SvampCentralen的软件进行分发。尽管该软件在市场上未能取得显著成功，但数据集本身在2018年被重新发现，并经过整理后用于机器学习研究。该数据集的核心研究问题在于如何利用机器学习技术对真菌进行分类和识别，为真菌学研究提供了新的工具和方法。

当前挑战

Fungi machine learning dataset 在构建和应用过程中面临多重挑战。首先，数据集的原始数据来源于手动输入，可能存在数据不一致或错误的问题，这对机器学习模型的训练和准确性提出了挑战。其次，数据集中的属性类型多样，包括枚举、集合和颜色范围等，如何将这些复杂的数据结构转化为适合机器学习算法的输入格式是一个技术难题。此外，尽管数据集的准确率测试显示高达95-96%，但这仅基于假设性实验，实际应用中的表现仍需进一步验证。最后，数据集的维护和更新也面临挑战，由于项目已被搁置，未来可能缺乏持续的支持和改进。

常用场景

经典使用场景

Fungi machine learning dataset 主要用于真菌分类和识别的研究。通过提供瑞典本土800多种真菌的详细属性数据，该数据集为机器学习模型提供了丰富的训练材料，特别是在图像识别和自然语言处理领域。研究者可以利用这些数据开发算法，自动识别和分类不同种类的真菌。

实际应用

在实际应用中，Fungi machine learning dataset 可以用于开发智能真菌识别工具。例如，野外生物学家和自然爱好者可以通过描述真菌的外观特征，利用该数据集训练出的模型快速识别未知真菌种类。这不仅提高了工作效率，还增强了对自然环境的理解和保护。

衍生相关工作

基于该数据集，已有研究开发了高精度的真菌分类模型，准确率达到95-96%。这些模型不仅推动了真菌分类学的发展，还为相关领域如生态监测和生物多样性保护提供了技术支持。此外，该数据集还激发了更多关于真菌生态和进化的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集