Pima Indians Diabetes Database

github2019-02-05 更新2024-05-31 收录

下载链接：

https://github.com/cnachteg/diabetes_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是关于Pima印第安女性糖尿病的诊断数据，包含8个属性如怀孕次数、血糖浓度等，用于预测糖尿病的发生。数据集来源于国家糖尿病和消化及肾脏疾病研究所，由Vincent Sigillito捐赠。

This dataset pertains to the diagnostic data of diabetes among Pima Indian women, encompassing eight attributes such as the number of pregnancies and blood glucose concentration, utilized for predicting the onset of diabetes. The dataset originates from the National Institute of Diabetes and Digestive and Kidney Diseases and was contributed by Vincent Sigillito.

创建时间：

2019-01-29

原始信息汇总

数据集概述

数据集名称

Title: Pima Indians Diabetes Database

数据集来源

Original Owners: National Institute of Diabetes and Digestive and Kidney Diseases
Donor of Database: Vincent Sigillito, Research Center, RMI Group Leader, Applied Physics Laboratory, The Johns Hopkins University
Date Received: 9 May 1990

数据集使用历史

Usage: Smith et al. (1988) used the ADAP learning algorithm to forecast the onset of diabetes mellitus. The algorithm achieved a sensitivity and specificity of 76% on 192 instances.

数据集相关信息

Selection Constraints: All patients are females at least 21 years old of Pima Indian heritage.

数据集统计信息

Number of Instances: 768
Number of Attributes: 8 plus class
Attributes:
- Number of times pregnant
- Plasma glucose concentration a 2 hours in an oral glucose tolerance test
- Diastolic blood pressure (mm Hg)
- Triceps skin fold thickness (mm)
- 2-Hour serum insulin (mu U/ml)
- Body mass index (weight in kg/(height in m)^2)
- Diabetes pedigree function
- Age (years)
- Class variable (0 or 1)
Missing Attribute Values: None
Class Distribution:
- Class Value 0: 500 instances
- Class Value 1: 268 instances

属性统计分析

Attribute Mean and Standard Deviation:
- Attribute 1: Mean = 3.8, SD = 3.4
- Attribute 2: Mean = 120.9, SD = 32.0
- Attribute 3: Mean = 69.1, SD = 19.4
- Attribute 4: Mean = 20.5, SD = 16.0
- Attribute 5: Mean = 79.8, SD = 115.2
- Attribute 6: Mean = 32.0, SD = 7.9
- Attribute 7: Mean = 0.5, SD = 0.3
- Attribute 8: Mean = 33.2, SD = 11.8

类标签重命名

From 0 to tested_negative
From 1 to tested_positive

搜集汇总

数据集介绍

构建方式

Pima Indians Diabetes Database由Vincent Sigillito捐赠，数据来源于National Institute of Diabetes and Digestive and Kidney Diseases。该数据集包含了768个实例，每个实例包含8个特征和一个二元分类变量，用于诊断患者是否患有糖尿病。所有患者均为至少21岁的Pima Indian女性，数据收集自美国亚利桑那州凤凰城附近。数据集的构建严格遵循了特定的选择标准，确保了样本的代表性和可靠性。

特点

该数据集的显著特点在于其样本的同质性，所有患者均为Pima Indian女性，年龄至少21岁，这有助于减少变量间的干扰，提高模型的预测精度。此外，数据集包含了详细的生理指标，如血糖浓度、血压、体重指数等，这些特征对于糖尿病的诊断具有重要意义。数据集的二元分类变量清晰地标识了患者是否患有糖尿病，便于直接应用于分类算法。

使用方法

Pima Indians Diabetes Database适用于多种机器学习任务，特别是二元分类问题。用户可以通过加载数据集，使用如Python的Pandas库进行数据预处理，然后应用各种分类算法，如逻辑回归、支持向量机或随机森林等，来预测患者是否患有糖尿病。数据集的特征和标签清晰，便于模型的训练和验证。此外，数据集的公开性和历史使用记录，使其成为研究和教学的理想选择。

背景与挑战

背景概述

Pima Indians Diabetes Database，由Vincent Sigillito于1990年创建，源自国家糖尿病与消化及肾脏疾病研究所。该数据集聚焦于Pima印第安女性，年龄至少21岁，旨在预测糖尿病的发病。核心研究问题是通过ADAP学习算法预测糖尿病的早期迹象，这一研究对糖尿病的早期诊断和预防具有重要意义。数据集的构建基于严格的筛选标准，确保了样本的代表性和研究的可靠性，对医学领域的机器学习应用产生了深远影响。

当前挑战

Pima Indians Diabetes Database在构建过程中面临多重挑战。首先，数据集的样本选择严格，仅限于Pima印第安女性，这限制了其普适性。其次，尽管数据集包含了多个关键健康指标，但某些指标如胰岛素水平的标准差较大，增加了模型训练的复杂性。此外，数据集的二元分类任务虽简单，但在实际应用中，如何准确区分糖尿病前期与确诊状态仍是一个挑战。这些因素共同构成了该数据集在实际应用中的主要难题。

常用场景

经典使用场景

Pima Indians Diabetes Database 数据集的经典使用场景主要集中在糖尿病的早期诊断和预测。通过分析患者的多个生理指标，如血糖浓度、血压、体重指数等，研究人员可以构建预测模型，以识别潜在的糖尿病患者。这种模型在临床实践中具有重要意义，能够帮助医生在早期阶段进行干预，从而提高治疗效果和患者的生活质量。

解决学术问题

该数据集解决了糖尿病早期诊断的学术研究问题，特别是在机器学习和数据挖掘领域。通过提供丰富的生理数据和明确的分类标签，研究人员可以开发和验证各种预测算法，如ADAP学习算法。这不仅推动了糖尿病诊断技术的进步，还为其他慢性疾病的预测模型提供了参考和借鉴。

衍生相关工作

基于Pima Indians Diabetes Database 数据集，许多相关研究工作得以展开。例如，Smith等人在1988年提出的ADAP学习算法，通过该数据集验证了其在糖尿病预测中的有效性。此外，后续研究还扩展了数据集的应用范围，包括使用深度学习技术进行更精确的预测模型构建，以及结合其他健康数据源进行多模态分析，进一步提升了糖尿病预测的准确性和可靠性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集