five

Diabetes Dataset, Housing Price Dataset, Penguin Dataset

收藏
github2025-02-22 更新2025-02-25 收录
下载链接:
https://github.com/taha-gktn/Machine-Learning-Projects-2
下载链接
链接失效反馈
官方服务:
资源简介:
Diabetes Dataset是用于预测糖尿病的医疗特征数据集;Housing Price Dataset是用于预测房屋价格的房子特征数据集;Penguin Dataset是用于预测企鹅种类的企鹅物理特征数据集。

Diabetes Dataset is a medical feature dataset for diabetes prediction; Housing Price Dataset is a housing feature dataset for housing price prediction; Penguin Dataset is a penguin physical feature dataset for penguin species prediction.
创建时间:
2025-02-22
原始信息汇总

数据集概述

1. Diabetes Dataset (Frame 1)

描述

  • 用于预测糖尿病的医疗特征数据集。
  • 目标:根据多种医疗属性预测患者是否患有糖尿病(1为是,0为否)。

方法

  • Logistic Regression(逻辑回归)
  • Grid Search(网格搜索)
  • Decision Tree(决策树)
  • K-Nearest Neighbors (KNN)(K-最近邻)
  • Random Forest(随机森林)

特征

  • Pregnancies(怀孕次数)
  • Glucose(2小时口服葡萄糖耐量试验后的血浆葡萄糖浓度)
  • BloodPressure(舒张压)
  • SkinThickness(皮肤厚度,单位:毫米)
  • Insulin(2小时葡萄糖耐量试验后的胰岛素水平)
  • BMI(体质指数)
  • DiabetesPedigreeFunction(家族史对糖尿病风险的测量)
  • Age(患者年龄)
  • Outcome(患者是否患有糖尿病)

2. Housing Price Dataset (Frame 2)

描述

  • 包含用于预测房价的房屋特征数据集。
  • 目标:基于物理和环境因素预测中位房价。

方法

  • K-Nearest Neighbors (KNN)(K-最近邻)
  • Standard Scaler(标准缩放器)
  • Random Forest(随机森林)
  • Grid Search(网格搜索)

特征

  • CRIM(犯罪率)
  • ZN(大量土地住宅区的比例)
  • INDUS(工业土地的比例)
  • CHAS(查尔斯河的接近度)
  • NOX(氮氧化物浓度)
  • RM(房屋平均房间数)
  • AGE(建于1940年之前的房屋比例)
  • DIS(距离就业中心的距离)
  • RAD(接近放射性高速公路的程度)
  • TAX(物业税率)
  • PTRATIO(师生比例)
  • LSTAT(低收入人口比例)
  • MEDV(中位房价,单位:千美元)

3. Penguin Dataset (Frame 3)

描述

  • 包含不同企鹅物种的物理特征数据集。
  • 目标:根据物理特征预测企鹅的物种。

方法

  • Random Forest(随机森林)
  • Grid Search(网格搜索)
  • Logistic Regression(逻辑回归)
  • Standard Scaler(标准缩放器)

特征

  • species(企鹅物种,例如:"Adelie", "Gentoo", "Chinstrap")
  • island(企鹅所在的岛屿)
  • culmen_length_mm(企鹅喙的长度,单位:毫米)
  • culmen_depth_mm(企鹅喙的深度,单位:毫米)
  • flipper_length_mm(企鹅翼的长度,单位:毫米)
  • body_mass_g(企鹅体重,单位:克)
  • sex(企鹅性别,"MALE" 或 "FEMALE")
搜集汇总
数据集介绍
main_image_url
构建方式
Diabetes Dataset是由多个医疗特征组成,旨在预测患者是否患有糖尿病。数据集通过收集患者的怀孕次数、血糖浓度、血压、皮肤厚度、胰岛素水平、体质指数、糖尿病家族史影响函数和年龄等医疗属性构建而成。Housing Price Dataset则包含房屋的物理和环境因素特征,用于预测房屋的中位数价格,特征包括犯罪率、住宅用地比例、工业用地比例等。Penguin Dataset则包含不同物种的企鹅的物理特征,用于预测企鹅的物种,特征包括喙长、喙深、翼长、体重和性别等。
特点
Diabetes Dataset的特点在于其涵盖了多种医疗特征,适用于预测糖尿病的线性分类模型。Housing Price Dataset的特点在于包含了房屋的物理和环境因素,适用于预测房屋价格的各种算法模型。Penguin Dataset的特点在于其包含了不同物种企鹅的物理特征,适用于分类算法模型。三个数据集都具有较为完整和具有代表性的特征,适用于相应的机器学习任务。
使用方法
使用Diabetes Dataset时,可以通过Logistic Regression、Decision Tree、KNN和Random Forest等算法进行模型训练和预测。Housing Price Dataset可以使用KNN、Standard Scaler、Random Forest和Grid Search等方法进行模型训练和预测。而Penguin Dataset则可以使用Random Forest、Grid Search、Logistic Regression和Standard Scaler等方法进行模型训练和预测。在使用这些数据集时,用户需要根据具体任务选择合适的特征和模型算法。
背景与挑战
背景概述
Diabetes Dataset 是一个用于预测糖尿病的医疗特征数据集,创建于2008年,由Kaggle提供。该数据集的主要研究人员是来自世界各地的研究者,他们致力于开发能够准确预测患者是否患有糖尿病的模型。数据集包含如血糖浓度、血压、皮肤厚度、胰岛素水平、体重指数等医疗属性,旨在通过这些特征来预测患者是否具有糖尿病。其对医学研究和健康信息学领域产生了显著影响,为糖尿病的早期诊断和治疗提供了重要支持。
当前挑战
该数据集的挑战主要在于如何准确预测糖尿病,涉及的特征选择、模型泛化能力以及模型参数调优等问题。此外,数据集构建过程中的挑战包括医疗数据的收集、隐私保护以及数据质量保证。
常用场景
经典使用场景
在医学研究领域,Diabetes Dataset被广泛用于预测患者是否患有糖尿病。该数据集通过逻辑回归、决策树、K-最近邻和随机森林等分类算法,基于患者的医疗特征,如怀孕次数、血糖浓度、血压、皮肤厚度、胰岛素水平、BMI、家族糖尿病风险系数和年龄等,进行疾病预测,是疾病预测模型的典型应用场景。
衍生相关工作
基于Diabetes Dataset的研究衍生出了许多经典工作,如糖尿病预测模型的优化、患者医疗特征重要性的评估以及对糖尿病风险的深入理解等。这些研究不仅提升了疾病预测的准确率,还推动了医学数据挖掘和机器学习在医疗健康领域的应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作