Diabetes Dataset

github2022-12-23 更新2024-05-31 收录

下载链接：

https://github.com/tohid-yousefi/Data_Preprocessing_and_Feature_Engineering_on_Diabetes_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是美国国家糖尿病-消化-肾脏疾病研究所持有的一个大型数据集的一部分，用于研究21岁以上居住在亚利桑那州凤凰城的皮马印第安妇女的糖尿病情况。目标变量为outcome，1表示糖尿病检测结果阳性，0表示阴性。数据包括妊娠次数、血糖、血压、皮肤厚度、胰岛素水平、糖尿病谱系功能、BMI和年龄等指标。

This dataset is part of a large dataset held by the National Institute of Diabetes and Digestive and Kidney Diseases, used to study diabetes among Pima Indian women aged 21 and above residing in Phoenix, Arizona. The target variable is 'outcome', where 1 indicates a positive diabetes test result and 0 indicates a negative result. The data includes metrics such as number of pregnancies, plasma glucose concentration, blood pressure, skin thickness, insulin level, diabetes pedigree function, BMI, and age.

创建时间：

2022-12-23

原始信息汇总

数据集概述

数据集名称

Diabetes Dataset

数据集来源

National Institutes of Diabetes-Digestive-Kidney Diseases, USA

数据集描述

该数据集用于研究居住在美国亚利桑那州凤凰城的21岁以上Pima印第安女性的糖尿病情况。数据集的目标变量为“outcome”，其中1表示糖尿病检测结果为阳性，0表示阴性。

数据集特征

Pregnancies: 怀孕次数
Glucose: 口服葡萄糖耐量测试中2小时血浆葡萄糖浓度
Blood Pressure: 血压（mm Hg）
SkinThickness: 皮肤厚度
Insulin: 2小时血清胰岛素（mu U/ml）
DiabetesPedigreeFunction: 糖尿病谱系功能（口服葡萄糖耐量测试中2小时血浆葡萄糖浓度）
BMI: 身体质量指数
Age: 年龄（岁）
Outcome: 疾病状态（1表示有病，0表示无病）

业务问题

开发一个机器学习模型，用于预测当指定人的特征时，他们是否患有糖尿病。

搜集汇总

数据集介绍

构建方式

该数据集源自美国国家糖尿病、消化和肾脏疾病研究所（NIDDK）所持有的大型数据集，专门用于糖尿病研究。数据采集对象为居住在美国亚利桑那州凤凰城的21岁及以上皮马印第安女性。数据集中的每一行记录均包含多个生理特征，如怀孕次数、血糖浓度、血压、皮肤厚度、胰岛素水平、糖尿病家族史功能、体重指数（BMI）以及年龄等。目标变量为‘outcome’，用于指示糖尿病检测结果，1表示阳性，0表示阴性。

使用方法

该数据集主要用于开发和验证糖尿病预测模型。在使用时，首先需对数据进行预处理，包括缺失值处理、特征标准化等。随后，可通过特征工程提取关键特征，以提升模型的预测性能。数据集可直接用于监督学习任务，目标变量‘outcome’作为标签，其余特征作为输入变量。常见的应用场景包括逻辑回归、决策树、随机森林等分类算法的训练与评估。

背景与挑战

背景概述

糖尿病数据集（Diabetes Dataset）由美国国家糖尿病、消化和肾脏疾病研究所（National Institutes of Diabetes-Digestive-Kidney Diseases）收集，主要用于糖尿病相关的研究。该数据集聚焦于居住在美国亚利桑那州凤凰城的21岁及以上皮马印第安女性群体，旨在通过机器学习模型预测个体是否患有糖尿病。数据集包含多个特征，如怀孕次数、血糖水平、血压、皮肤厚度、胰岛素水平、糖尿病家族史函数、体重指数和年龄等。目标变量为‘outcome’，表示糖尿病检测结果（1为阳性，0为阴性）。该数据集为糖尿病早期诊断和预防提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

糖尿病数据集在应用过程中面临多重挑战。首先，数据集中存在缺失值和噪声，需通过数据预处理和特征工程进行清洗和优化，以提高模型的预测精度。其次，由于数据样本主要来自特定人群（皮马印第安女性），其泛化能力可能受到限制，难以直接推广至其他人群。此外，糖尿病作为一种复杂的慢性疾病，其发病机制涉及多种因素，如何从有限的特征中提取关键信息并构建高效的预测模型，是研究中的核心难点。最后，数据集的规模相对较小，可能影响模型的训练效果，需通过数据增强或迁移学习等方法加以解决。

常用场景

经典使用场景

Diabetes Dataset 常用于机器学习和数据科学领域，特别是在医疗健康分析中。该数据集通过提供Pima印第安女性的糖尿病相关数据，支持研究人员开发和测试预测模型，以识别糖尿病风险。数据集中的特征如血糖水平、血压、BMI等，为构建高效的分类算法提供了基础。

解决学术问题

该数据集解决了糖尿病早期预测的学术研究问题。通过分析患者的生理指标，研究人员能够探索糖尿病与多种健康因素之间的关系，进而开发出能够准确预测糖尿病风险的模型。这不仅推动了机器学习在医疗诊断中的应用，也为糖尿病的预防和治疗提供了科学依据。

实际应用

在实际应用中，Diabetes Dataset 被广泛用于医疗健康系统的开发，如糖尿病风险评估工具和个性化健康管理平台。医疗机构可以利用这些工具对患者进行早期筛查，从而及时采取干预措施，减少糖尿病的发病率和并发症。此外，该数据集也为公共卫生政策的制定提供了数据支持。

数据集最近研究