UCI Adult dataset

github2020-03-04 更新2024-05-31 收录

下载链接：

https://github.com/akshat3096/UCI_Adult_dataset_R

下载链接

链接失效反馈

资源简介：

该数据集用于预测成年人的收入水平，基于人口普查数据。数据集包含多个属性，如年龄、工作类别、教育程度、婚姻状况、职业、种族、性别等，用于通过逻辑回归等模型分类个人收入。

This dataset is designed for predicting the income levels of adults, based on census data. It encompasses a variety of attributes such as age, work class, education level, marital status, occupation, race, and gender, which are utilized to classify individual incomes through models like logistic regression.

创建时间：

2019-02-15

原始信息汇总

数据集概述

数据集名称

UCI_Adult_dataset_R

数据集属性

目标变量：
- 收入：>50K, <=50K
个人属性：
- 年龄：连续
- 工作类别：Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov, State-gov, Without-pay, Never-worked
- 教育：Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc-acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool
- 教育年限：连续
- 婚姻状态：Married-civ-spouse, Divorced, Never-married, Separated, Widowed, Married-spouse-absent, Married-AF-spouse
- 职业：Tech-support, Craft-repair, Other-service, Sales, Exec-managerial, Prof-specialty, Handlers-cleaners, Machine-op-inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv-house-serv, Protective-serv, Armed-Forces
- 关系：Wife, Own-child, Husband, Not-in-family, Other-relative, Unmarried
- 种族：White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black
- 性别：Female, Male
- 资本收益：连续
- 资本损失：连续
- 每周工作小时数：连续
- 出生国家：United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France, Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand, Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands

模型性能

分类树：83%
随机森林：86%
GBM：86%
神经网络：79%（敏感性96%）
简单Logit模型：84%

AI搜集汇总

数据集介绍

构建方式

UCI Adult数据集通过收集和整理来自不同社会经济背景的个体信息构建而成。数据集包含了多个连续和分类变量，如年龄、工作类别、教育程度、婚姻状态、职业、种族、性别、资本收益和损失、每周工作小时数以及原籍国家等。这些变量的选择旨在全面反映个体的社会经济状况，从而为收入分类提供丰富的信息基础。数据集的构建过程严谨，确保了数据的多样性和代表性，为后续的分析和模型训练提供了坚实的基础。

特点

UCI Adult数据集以其丰富的变量和广泛的应用领域著称。该数据集不仅包含了连续变量如年龄和每周工作小时数，还涵盖了多种分类变量，如教育程度和职业类别，这些变量共同构成了一个复杂而全面的社会经济画像。此外，数据集的多样性体现在其涵盖了来自不同国家和种族的个体，这为研究不同背景下的收入差异提供了宝贵的资源。数据集的高质量和高代表性使其成为社会科学和机器学习领域的经典数据集之一。

使用方法

UCI Adult数据集主要用于收入分类模型的训练和评估。研究者可以通过加载数据集，利用各种机器学习算法如逻辑回归、分类树、随机森林、梯度提升机和神经网络等进行模型训练。数据集的预处理步骤通常包括缺失值处理、特征编码和数据标准化等。模型训练后，可以通过交叉验证和测试集评估模型的性能，如准确率、敏感性和特异性等指标。此外，数据集还可用于探索性数据分析，以揭示不同变量与收入之间的关系，为社会经济研究提供深入的见解。

背景与挑战

背景概述

UCI Adult数据集，又称作Census Income数据集，是由加州大学欧文分校（UCI）机器学习库维护的一个经典数据集。该数据集创建于1996年，主要用于研究收入预测问题。数据集包含了来自美国人口普查局的数据，涵盖了多个社会经济变量，如年龄、教育程度、职业、婚姻状况等，旨在预测个人的年收入是否超过50,000美元。该数据集在机器学习和数据挖掘领域具有广泛的应用，尤其是在分类算法的研究和评估中，为研究人员提供了一个标准化的基准数据集。

当前挑战

UCI Adult数据集在解决收入预测问题时面临多个挑战。首先，数据集中的特征具有高度的异质性，包括连续变量和分类变量，这增加了模型构建的复杂性。其次，数据集存在类别不平衡问题，即收入超过50,000美元的样本数量远少于收入低于或等于50,000美元的样本，这可能导致模型偏向于预测多数类别。此外，数据集的构建过程中，如何确保数据的质量和代表性也是一个重要挑战，尤其是在处理缺失值和异常值时。最后，尽管已有多种模型在该数据集上进行了测试，但如何进一步提升模型的准确性和泛化能力仍然是当前研究的重点。

常用场景

经典使用场景

UCI Adult数据集的经典使用场景主要集中在收入预测与分类任务上。通过分析个体的年龄、教育程度、职业、婚姻状况等特征，研究人员能够构建模型，预测个体年收入是否超过50,000美元。这一任务不仅在学术界广泛应用，也在实际应用中具有重要价值，如在人力资源管理和金融风险评估等领域。

解决学术问题

UCI Adult数据集解决了机器学习领域中经典的分类问题，即收入预测。通过该数据集，研究人员能够探索和验证不同分类算法的效果，如逻辑回归、决策树、随机森林和神经网络等。这不仅推动了分类算法的发展，还为后续研究提供了基准数据集，具有重要的学术意义和影响。

衍生相关工作

UCI Adult数据集的广泛应用催生了大量相关研究工作。例如，研究人员通过改进模型和算法，提高了收入预测的准确性和敏感性。此外，该数据集还被用于探索不同特征对收入的影响，如教育程度、职业类型和婚姻状况等。这些研究不仅丰富了机器学习领域的理论基础，还为实际应用提供了有力支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？