Pima Indians Diabetes Dataset

github2024-04-22 更新2024-05-31 收录

下载链接：

https://github.com/KriAga/Pima-Indians-Diabetes-Dataset-Classification

下载链接

链接失效反馈

官方服务：

资源简介：

Pima Indians糖尿病数据集是一个二分类问题，需要分析患者是否患有糖尿病。数据集包含9个属性，记录了女性患者的多个生理指标，如妊娠次数、血糖浓度、血压等，以及一个表示是否患有糖尿病的类别变量（0表示无糖尿病，1表示有糖尿病）。

The Pima Indians Diabetes Dataset is a binary classification problem aimed at determining whether a patient has diabetes. The dataset comprises nine attributes, documenting various physiological metrics of female patients, such as the number of pregnancies, plasma glucose concentration, blood pressure, among others, along with a categorical variable indicating the presence (1) or absence (0) of diabetes.

创建时间：

2017-12-26

原始信息汇总

数据集概述

数据集名称

Pima Indians Diabetes Dataset

数据集描述

该数据集用于二分类问题，旨在通过多个特征分析患者是否患有糖尿病。数据集包含9个属性，所有记录对象均为女性，具体属性包括：

怀孕次数
口服葡萄糖耐量测试2小时后的血浆葡萄糖浓度
舒张压（mm Hg）
三头肌皮肤褶皱厚度（mm）
2小时血清胰岛素（mu U/ml）
体重指数（kg/ (身高m)^2）
糖尿病谱系功能
年龄（年）
类别变量（0表示无糖尿病，1表示有糖尿病）

数据集应用

数据清洗
特征提取
特征工程
预测算法应用，包括决策树、线性回归、多层感知器（MLP）、神经网络、支持向量机等

数据集分析结果

数据集包含768条记录
糖尿病阳性记录268条，阴性记录500条
糖尿病患者的平均BMI值为35.14，非糖尿病患者的平均BMI值为30
糖尿病患者的平均血浆葡萄糖浓度为141.25

方法论

决策树：用于决策支持和机器学习，通过树状图展示决策及其可能结果
线性回归：用于建模依赖变量与一个或多个解释变量之间的关系
多层感知器（MLP）：一种前馈人工神经网络，用于非线性数据区分
支持向量机（SVM）：用于分类和回归分析的监督学习模型

结论

使用支持向量机（SVM）达到最佳准确率80.5%
通过大量特征操作和提取，进行了深入的数据探索分析
随机森林和集成学习可能进一步提高结果

搜集汇总

数据集介绍

构建方式

Pima Indians Diabetes Dataset的构建基于对Pima印第安女性的健康数据收集，涵盖了9个关键属性。这些属性包括怀孕次数、口服葡萄糖耐量测试中的血糖浓度、舒张压、三头肌皮褶厚度、2小时血清胰岛素水平、体重指数、糖尿病谱系函数以及年龄。数据集通过记录这些生理指标，结合最终的分类变量（0表示无糖尿病，1表示有糖尿病），形成了一个二元分类问题的基准数据集。

特点

该数据集具有显著的医学研究价值，其特点在于所有样本均为女性，且数据涵盖了多个与糖尿病相关的关键生理指标。这些指标不仅包括传统的健康监测参数，如血糖和血压，还引入了糖尿病谱系函数等遗传因素，使得数据集在预测糖尿病发病风险时具有较高的准确性和全面性。此外，数据集的二元分类特性使其成为机器学习中二分类问题的理想实验平台。

使用方法

Pima Indians Diabetes Dataset适用于多种机器学习算法的训练与验证，包括但不限于决策树、线性回归、多层感知器和支持向量机。用户可以通过加载数据集，进行数据清洗、特征提取和特征工程，进而应用上述算法进行模型训练。数据集的二元分类特性使得其在评估模型性能时，能够通过准确率、召回率等指标进行全面评估。此外，数据集还支持探索性数据分析，帮助用户深入理解各特征与糖尿病发病之间的关系。

背景与挑战

背景概述

Pima Indians Diabetes Dataset 是由美国国家糖尿病、消化和肾脏疾病研究所（NIDDK）创建的，旨在通过机器学习技术预测糖尿病的发病情况。该数据集包含了768名Pima印第安女性的健康数据，涵盖了包括怀孕次数、血糖浓度、血压、皮肤厚度、胰岛素水平、BMI指数、糖尿病家族史和年龄等多个特征。核心研究问题是通过这些特征预测个体是否患有糖尿病，这一研究对糖尿病的早期诊断和预防具有重要意义。该数据集自创建以来，已成为机器学习领域中二元分类问题的经典案例，广泛应用于支持向量机、神经网络、决策树等多种算法的性能评估。

当前挑战

Pima Indians Diabetes Dataset 在构建和应用过程中面临多项挑战。首先，数据集中的特征存在缺失值和异常值，需要进行数据清洗和特征工程，以确保模型的准确性。其次，由于糖尿病的复杂性，特征之间的相关性和冗余性增加了模型选择的难度。此外，数据集的样本量相对较小，可能导致模型的泛化能力不足。最后，如何在医疗领域中应用这些预测模型，确保其临床有效性和可靠性，也是一个重要的挑战。

常用场景

经典使用场景

Pima Indians Diabetes Dataset 主要用于二元分类任务，旨在通过分析患者的多种生理指标，预测其是否患有糖尿病。该数据集包含9个特征，涵盖了从妊娠次数到血糖浓度等多个关键健康指标。通过应用机器学习算法，如支持向量机、多层感知器和决策树，研究者能够对这些数据进行深入分析，从而实现对糖尿病发病风险的精准预测。

衍生相关工作

基于Pima Indians Diabetes Dataset，研究者开发了多种机器学习模型，如支持向量机、多层感知器和决策树，这些模型在糖尿病预测中表现出色。此外，该数据集还激发了大量关于特征工程和数据清洗的研究，进一步提升了模型的准确性和鲁棒性。这些衍生工作不仅推动了糖尿病预测技术的发展，也为其他医疗数据集的分析提供了宝贵经验。

数据集最近研究