Mushroom Dataset|分类任务数据集|蘑菇识别数据集
收藏蘑菇分类与可视化
项目概述
本项目探索了一个蘑菇数据集,使用多种机器学习模型将蘑菇分类为可食用或有毒。数据集经过预处理、可视化并通过各种图表、相关矩阵和分类结果进行分析。关键特性包括用于降维的PCA、用于模型评估的混淆矩阵以及显示类别分布的饼图。
数据集
- 数据集: Mushroom Dataset
- 该数据集包含分类特征,用于识别蘑菇是否可食用或有毒,以及其他特征如菌盖形状、颜色等。
关键特性
-
数据预处理:
- 所有特征通过标签编码转换为数值形式。
- 数据集被分为独立特征(X)和依赖标签(Y)。
- 应用PCA将数据集减少到5个主成分。
-
可视化:
- 饼图显示类别分布(可食用 vs. 有毒)。
- 使用热图可视化相关矩阵,以理解特征之间的关系。
-
机器学习模型: 使用多种算法进行蘑菇分类,包括:
- 决策树
- 随机森林
- 支持向量机(SVM)
- 逻辑回归
- XGBoost
- 朴素贝叶斯
为每个模型绘制混淆矩阵以评估其性能。
-
评估:
- 计算每个模型的准确率,并绘制混淆矩阵以更好地理解。
- 使用一系列颜色映射来增强混淆矩阵的可视化效果。
使用的工具
- Python库:
numpy
pandas
matplotlib
seaborn
scikit-learn
xgboost
代码解释
-
数据加载与预处理:
- 使用
pandas
加载数据集,并使用LabelEncoder
将分类数据转换为数值形式。 - 使用
train_test_split
将数据分为训练集和测试集。 - 应用PCA减少特征空间。
- 使用
-
可视化:
- 创建饼图显示可食用和有毒蘑菇的分布。
- 绘制相关矩阵的热图以可视化特征之间的关系。
-
机器学习模型:
- 实现六种机器学习模型。
- 每个模型在训练集上训练,并在测试集上进行预测。
- 为每个模型生成混淆矩阵,显示真阳性、假阳性、真阴性和假阴性率。
-
准确率与混淆矩阵可视化:
- 为每个模型计算并显示准确率。
- 循环使用不同的颜色映射来独特地可视化每个混淆矩阵。

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
CHARLS
中国健康与养老追踪调查(CHARLS)数据集,旨在收集反映中国45岁及以上中老年人家庭和个人的高质量微观数据,用以分析人口老龄化问题,内容包括健康状况、经济状况、家庭结构和社会支持等。
charls.pku.edu.cn 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录