Pima Indians Diabetes

github2023-10-18 更新2024-05-31 收录

下载链接：

https://github.com/LamaHamadeh/Pima-Indians-Diabetes-DataSet-UCI

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含768个Pima印第安患者的医疗详细记录。记录描述了患者的即时测量数据，如年龄、怀孕次数和血液检查结果。所有患者均为21岁以上的女性。所有属性均为数值型，单位因属性而异。每个记录都有一个类别值，表示患者在测量后5年内是否患有糖尿病（1表示是，0表示否）。这是一个在机器学习文献中广泛研究的标准数据集，预测准确率通常在70%-76%之间。

This dataset comprises detailed medical records of 768 Pima Indian patients. The records document immediate measurements of the patients, such as age, number of pregnancies, and blood test results. All patients are females over the age of 21. All attributes are numerical, with units varying by attribute. Each record includes a class value indicating whether the patient developed diabetes within five years of the measurement (1 for yes, 0 for no). This is a standard dataset extensively studied in machine learning literature, with prediction accuracy typically ranging between 70% and 76%.

创建时间：

2017-09-04

原始信息汇总

Pima-Indians-Diabetes-DataSet-UCI

数据集概述

来源：Machine Learning Repository UCI
链接：Pima Indians Diabetes

数据集特征

观察数：768
患者特征：所有患者为21岁以上的女性，包含年龄、怀孕次数及血液检查等即时测量数据。
属性类型：所有属性为数值型，单位因属性而异。

目标变量

描述：记录是否在测量后5年内发生糖尿病（1表示发生，0表示未发生）。

预测性能

预测准确率：70%-76%

研究方法

分类方法：K最近邻分类方法

搜集汇总

数据集介绍

构建方式

Pima Indians Diabetes数据集源自UCI机器学习库，专为研究皮马印第安人糖尿病问题而构建。该数据集包含了768条记录，每条记录代表一位21岁及以上皮马印第安女性的医疗数据。数据采集自患者的即时测量结果，包括年龄、怀孕次数及血液检测等多项指标。所有属性均为数值型，单位因属性而异。每条记录还包含一个类别值，用于标识患者在测量后五年内是否出现糖尿病发作。

特点

Pima Indians Diabetes数据集以其全面性和代表性著称。数据集中的所有属性均为数值型，涵盖了从基础人口统计信息到详细的医疗检测结果，为研究者提供了丰富的信息维度。特别值得注意的是，该数据集专注于女性患者，且所有样本均来自同一民族群体，这为研究特定人群的糖尿病风险因素提供了独特视角。此外，数据集中明确的类别标签（糖尿病发作与否）使其成为监督学习任务的理想选择。

使用方法

Pima Indians Diabetes数据集广泛应用于机器学习领域，尤其适用于分类算法的训练与评估。研究者可将其用于探索糖尿病预测模型，通过分析各项医疗指标与糖尿病发作之间的关系，构建预测模型。在使用时，建议先对数据进行预处理，如处理缺失值、标准化数值特征等。随后，可采用K近邻等分类算法进行模型训练，并通过交叉验证等方法评估模型性能。该数据集的标准性使其成为比较不同算法效果的基准数据集。

背景与挑战

背景概述

Pima Indians Diabetes数据集是由UCI机器学习库提供的一个经典数据集，主要用于糖尿病预测研究。该数据集创建于1988年，由美国国家糖尿病、消化和肾脏疾病研究所（NIDDK）资助，旨在通过分析皮马印第安人的医疗数据，预测糖尿病发病风险。数据集包含768条记录，每条记录描述了21岁及以上女性患者的即时医疗测量数据，如年龄、怀孕次数、血糖水平等。该数据集在机器学习领域具有重要影响力，被广泛用于分类算法的性能评估和糖尿病预测模型的开发。

当前挑战

Pima Indians Diabetes数据集在应用过程中面临多重挑战。首先，数据集规模较小且类别不平衡，导致模型训练时容易出现过拟合或欠拟合现象。其次，数据集中包含的医疗特征较为有限，难以全面反映糖尿病发病的复杂机制。此外，数据采集过程中可能存在测量误差或缺失值，进一步增加了模型训练的难度。在构建过程中，研究人员还需解决如何有效处理高维特征、选择合适的分类算法以及优化模型性能等问题，以实现更高的预测准确率。

常用场景

经典使用场景

Pima Indians Diabetes数据集在机器学习领域中被广泛用于分类问题的研究，尤其是二分类问题。该数据集通过提供768名皮马印第安女性的医疗记录，包括年龄、怀孕次数、血糖水平等特征，为研究者提供了一个标准化的测试平台。经典的使用场景包括利用K近邻算法、决策树、支持向量机等分类算法进行糖尿病发病预测，帮助研究者评估不同算法的性能。

解决学术问题

该数据集解决了机器学习中分类算法的性能评估问题，尤其是在不平衡数据集上的表现。通过提供真实的医疗数据，研究者可以探索如何提高糖尿病预测的准确性，尤其是在特征选择和模型优化方面。此外，该数据集还帮助研究者理解不同特征对糖尿病发病的影响，为医学研究提供了数据支持。

衍生相关工作

基于Pima Indians Diabetes数据集，许多经典的研究工作得以展开。例如，研究者利用该数据集开发了多种分类算法，并在医学期刊上发表了相关成果。此外，该数据集还催生了一系列关于特征选择和模型优化的研究，推动了机器学习在医疗领域的应用。这些工作不仅提升了糖尿病预测的准确性，还为其他疾病的预测模型提供了参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集