Pima Indian Diabetes Dataset

github2024-04-24 更新2024-05-31 收录

下载链接：

https://github.com/yanniey/ML-with-Python-Predicting-Diabetes-using-the-Pima-Indian-Diabetes-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于预测Pima印第安人是否可能发展为糖尿病，包含多个与糖尿病相关的健康指标。

This dataset is utilized for predicting the likelihood of Pima Indians developing diabetes, encompassing various health indicators related to diabetes.

创建时间：

2018-10-25

原始信息汇总

Pima Indian Diabetes Dataset Summary

Dataset Description

Objective: To create a prediction model using Machine Learning that predicts which people are likely to develop diabetes with an accuracy greater than 70%.
Data Source: The dataset is sourced from a CSV file named pima-data.csv located in the ./data/ directory.
Data Structure: The dataset contains 768 records with 10 features each. After preprocessing, one feature (skin) was removed due to high correlation with another feature (thickness), resulting in 9 features.

Features

num_preg: Number of pregnancies
glucose_conc: Glucose concentration
diastolic_bp: Diastolic blood pressure
thickness: Skin thickness
insulin: Insulin level
bmi: Body mass index
diab_pred: Diabetes pedigree function
age: Age
diabetes: Target variable (True/False, later converted to 1/0)

Data Preprocessing

Null Values: No null values were found.
Correlated Columns: skin and thickness were found to be perfectly correlated (correlation of 1), so skin was removed.
Data Types: The diabetes column was converted from boolean to numeric (1 for True, 0 for False).

Model Selection

Algorithm: Naive Bayes was selected for the model due to its suitability for binary classification and requirement for less data compared to other algorithms like Logistic Regression or Decision Trees.

Data Splitting

Training/Testing Split: The dataset was split into a training set (70%) and a testing set (30%) using scikit-learns train_test_split function.

Model Evaluation

Evaluation Criteria: The model aims to achieve an accuracy of over 70% in predicting diabetes.

This summary provides an overview of the Pima Indian Diabetes dataset, its preprocessing steps, and the selected model for prediction.

搜集汇总

数据集介绍

构建方式

Pima Indian Diabetes Dataset的构建基于对Pima印第安人糖尿病患者的临床数据收集。该数据集包含了768个样本，每个样本涵盖了9个特征，包括怀孕次数、血糖浓度、舒张压、皮肤厚度、胰岛素水平、BMI指数、糖尿病遗传风险、年龄等。数据集的目标是通过这些特征预测个体是否患有糖尿病。数据集的构建过程中，首先通过临床测量获取各项生理指标，随后将这些数据进行整理和标准化，最终形成一个用于机器学习模型训练和测试的数据集。

特点

Pima Indian Diabetes Dataset的特点在于其数据来源于特定的族群——Pima印第安人，这使得数据集在糖尿病研究中具有独特的代表性。数据集包含了多个与糖尿病相关的关键生理指标，如血糖浓度、BMI指数等，这些特征为模型的训练提供了丰富的信息。此外，数据集的标签明确，便于进行二分类任务，即预测个体是否患有糖尿病。数据集的样本数量适中，适合用于中小型机器学习模型的训练和验证。

使用方法

Pima Indian Diabetes Dataset的使用方法相对简单。首先，用户可以通过加载数据集并查看其结构，了解数据的特征和标签分布。随后，用户可以根据需求对数据进行预处理，如处理缺失值、特征选择或数据标准化等。接下来，用户可以将数据集划分为训练集和测试集，用于模型的训练和评估。常见的使用场景包括使用机器学习算法（如Naive Bayes、Logistic Regression等）进行糖尿病预测模型的构建和验证。最终，用户可以通过评估模型的准确率、召回率等指标，判断模型的性能。

背景与挑战

背景概述

Pima Indian Diabetes Dataset是由美国国家糖尿病、消化和肾脏疾病研究所（NIDDK）创建的，旨在通过机器学习技术预测糖尿病的发病风险。该数据集包含了768个样本，每个样本包含9个特征，涵盖了患者的怀孕次数、血糖浓度、血压、皮肤厚度、胰岛素水平、BMI、糖尿病遗传风险、年龄等信息。该数据集的核心研究问题是利用这些特征构建一个预测模型，以预测患者是否会在未来发展为糖尿病。该数据集在糖尿病预测领域具有重要影响力，为研究人员提供了一个标准化的基准数据集，促进了糖尿病预测模型的开发与验证。

当前挑战

Pima Indian Diabetes Dataset在构建和应用过程中面临多个挑战。首先，数据集中存在部分特征的缺失值，如皮肤厚度和胰岛素水平，这些缺失值的处理对模型的准确性至关重要。其次，数据集中的特征之间存在高度相关性，如皮肤厚度与胰岛素水平，这可能导致模型过拟合或特征冗余。此外，数据集的类别不平衡问题也是一个挑战，尽管数据集中糖尿病患者占比约为34%，但如何处理这种不平衡以提高模型的泛化能力仍然是一个重要问题。最后，如何选择合适的机器学习算法并进行有效的模型调优，以达到预测准确率超过70%的目标，也是该数据集应用中的一个关键挑战。

常用场景

经典使用场景

Pima Indian Diabetes Dataset 最经典的使用场景是用于二分类任务，即预测个体是否患有糖尿病。通过分析数据集中的多个特征，如血糖浓度、血压、体重指数等，研究人员可以构建预测模型，以评估个体患糖尿病的风险。该数据集常用于机器学习算法的训练和验证，尤其是监督学习中的分类算法，如逻辑回归、支持向量机和决策树等。

衍生相关工作

基于 Pima Indian Diabetes Dataset，许多相关研究工作得以展开。例如，研究人员通过该数据集开发了多种机器学习模型，如随机森林、梯度提升树等，以提高预测精度。此外，该数据集还被用于探索特征选择和数据预处理技术，以优化模型性能。这些衍生工作不仅丰富了糖尿病预测的研究领域，还为其他慢性疾病的预测提供了参考。

数据集最近研究