jlh/uci-mushrooms
收藏Hugging Face2023-04-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jlh/uci-mushrooms
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: poisonous
dtype:
class_label:
names:
'0': e
'1': p
- name: cap-shape
dtype: string
- name: cap-surface
dtype: string
- name: cap-color
dtype: string
- name: bruises
dtype: string
- name: odor
dtype: string
- name: gill-attachment
dtype: string
- name: gill-spacing
dtype: string
- name: gill-size
dtype: string
- name: gill-color
dtype: string
- name: stalk-shape
dtype: string
- name: stalk-root
dtype: string
- name: stalk-surface-above-ring
dtype: string
- name: stalk-surface-below-ring
dtype: string
- name: stalk-color-above-ring
dtype: string
- name: stalk-color-below-ring
dtype: string
- name: veil-type
dtype: string
- name: veil-color
dtype: string
- name: ring-number
dtype: string
- name: ring-type
dtype: string
- name: spore-print-color
dtype: string
- name: population
dtype: string
- name: habitat
dtype: string
splits:
- name: train
num_bytes: 958632
num_examples: 8124
download_size: 90673
dataset_size: 958632
---
# Dataset Card for "uci-mushrooms"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 名称:poisonous(是否有毒),数据类型:类别标签(class_label),其类别名称为:'0'对应'e'(可食用),'1'对应'p'(有毒)
- 名称:cap-shape(菌盖形状),数据类型:字符串
- 名称:cap-surface(菌盖表面纹理),数据类型:字符串
- 名称:cap-color(菌盖颜色),数据类型:字符串
- 名称:bruises(是否具瘀斑),数据类型:字符串
- 名称:odor(气味),数据类型:字符串
- 名称:gill-attachment(菌褶附着方式),数据类型:字符串
- 名称:gill-spacing(菌褶间距),数据类型:字符串
- 名称:gill-size(菌褶宽度),数据类型:字符串
- 名称:gill-color(菌褶颜色),数据类型:字符串
- 名称:stalk-shape(菌柄形状),数据类型:字符串
- 名称:stalk-root(菌柄根部形态),数据类型:字符串
- 名称:stalk-surface-above-ring(菌环上方菌柄表面),数据类型:字符串
- 名称:stalk-surface-below-ring(菌环下方菌柄表面),数据类型:字符串
- 名称:stalk-color-above-ring(菌环上方菌柄颜色),数据类型:字符串
- 名称:stalk-color-below-ring(菌环下方菌柄颜色),数据类型:字符串
- 名称:veil-type(菌幕类型),数据类型:字符串
- 名称:veil-color(菌幕颜色),数据类型:字符串
- 名称:ring-number(菌环数量),数据类型:字符串
- 名称:ring-type(菌环类型),数据类型:字符串
- 名称:spore-print-color(孢子印颜色),数据类型:字符串
- 名称:population(种群分布),数据类型:字符串
- 名称:habitat(生长栖息地),数据类型:字符串
数据拆分:
- 拆分名称:train(训练集),字节占用量:958632,样本数量:8124
下载大小:90673 字节
数据集总大小:958632 字节
# 「uci-mushrooms」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
jlh
原始信息汇总
数据集概述
数据集名称
uci-mushrooms
数据集特征
- poisonous:
- 数据类型: 类别标签
- 类别名称:
- 0: e
- 1: p
- cap-shape 至 habitat:
- 数据类型: 字符串
- 特征列表:
- cap-shape
- cap-surface
- cap-color
- bruises
- odor
- gill-attachment
- gill-spacing
- gill-size
- gill-color
- stalk-shape
- stalk-root
- stalk-surface-above-ring
- stalk-surface-below-ring
- stalk-color-above-ring
- stalk-color-below-ring
- veil-type
- veil-color
- ring-number
- ring-type
- spore-print-color
- population
- habitat
数据集划分
- train:
- 样本数量: 8124
- 数据大小: 958632 字节
数据集大小
- 下载大小: 90673 字节
- 数据集总大小: 958632 字节
搜集汇总
数据集介绍

构建方式
在真菌分类学领域,准确识别蘑菇的可食用性对食品安全至关重要。该数据集源自经典的UCI蘑菇数据集,通过系统采集野外样本并记录其形态学特征构建而成。数据收集过程涵盖了蘑菇的菌盖形状、表面纹理、颜色分布、菌褶结构及气味等22个关键属性,每个样本均经过专家标注其毒性类别,形成了包含8124条样本的标准化集合。这种基于实地观察与专家验证相结合的构建方式,确保了数据的生态效度和分类可靠性。
特点
该数据集以多维度形态特征描述见长,全面覆盖了蘑菇的宏观解剖结构。所有特征均采用离散型分类变量呈现,如菌盖表面的纤维状或鳞片状纹理、菌褶的疏密排列方式等,这种结构化表征便于机器学习模型进行模式识别。数据集中毒性标签的平衡性设计,为分类算法提供了稳定的学习基础,而特征间的生态关联性则反映了自然环境中蘑菇属性的真实分布规律。
使用方法
在应用层面,该数据集主要服务于监督学习场景中的二分类任务。研究者可将其划分为训练集与测试集,通过决策树、随机森林或支持向量机等算法建立毒性预测模型。特征工程阶段需对分类变量进行独热编码转换,模型评估应重点关注对有毒样本的召回率,以避免实际应用中的安全风险。该数据集亦可作为特征选择方法的测试基准,探究不同形态特征对分类结果的贡献度。
背景与挑战
背景概述
UCI蘑菇数据集作为机器学习领域经典分类基准,源于加州大学欧文分校机器学习仓库,其创建旨在解决基于形态学特征的真菌可食用性判别问题。该数据集收录了二十余种蘑菇属性,涵盖菌盖形状、颜色、气味等关键特征,为模式识别与分类算法提供了结构化验证平台。自上世纪八十年代问世以来,该数据集持续推动分类模型在特征选择与可解释性方面的研究,成为生态信息学与食品安全交叉领域的重要实证基础。
当前挑战
该数据集核心挑战在于如何通过离散型形态特征实现高精度毒性分类,特征间复杂的非线性关系对传统分类器构成显著考验。构建过程中,野外数据采集需克服真菌形态的季节性变异与地域性差异,特征标准化标注依赖真菌学专家经验,易引入主观偏差。此外,类别不平衡与特征冗余问题要求算法具备鲁棒的特征筛选能力,而稀疏特征组合下的过拟合风险则持续挑战模型的泛化性能。
常用场景
经典使用场景
在机器学习与数据挖掘领域,UCI蘑菇数据集作为经典分类任务基准,常被用于评估分类算法的性能。该数据集通过22个形态学特征描述蘑菇样本,核心目标在于区分可食用与有毒类别,为监督学习提供了结构清晰的范例。其多类别特征与二元分类标签的组合,使得研究者能够深入探索特征选择、模型泛化能力及分类边界界定等问题,成为算法比较与教学演示的常用工具。
衍生相关工作
围绕该数据集衍生了众多经典研究工作,包括决策树算法(如C4.5)的优化实验、贝叶斯网络在不确定性推理中的性能评估,以及集成学习方法(如随机森林)的比较分析。这些研究不仅深化了对分类器鲁棒性的理解,还促进了特征工程技术的演进。部分成果进一步拓展至异常检测与可解释人工智能领域,为后续更复杂生物信息学数据集的构建提供了方法论参考。
数据集最近研究
最新研究方向
在真菌分类与食品安全领域,UCI蘑菇数据集作为经典的多属性分类基准,持续推动着可解释机器学习与特征工程的前沿探索。当前研究聚焦于结合图神经网络与注意力机制,从蘑菇的形态学特征中挖掘深层关联模式,以提升毒性预测的准确性与鲁棒性。随着全球野生食用菌采集活动的兴起,该数据集在智能识别系统的开发中扮演关键角色,助力构建实时、低成本的毒性筛查工具,对预防食物中毒事件具有重要实践意义。同时,其结构化属性也为因果推断与领域自适应研究提供了丰富场景,促进了机器学习在生物信息学中的跨学科应用。
以上内容由遇见数据集搜集并总结生成



