Census-Income-Dataset

github2020-05-28 更新2024-05-31 收录

下载链接：

https://github.com/axg170018/Census-Income-Dataset-Analysis

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含199,523条记录，每条记录都有一个二元标签，指示收入是否低于50K或高于50K美元。数据集中94%的记录标签为<50K。数据被分为训练集（133,680条记录）和测试集（65,843条记录）。预测任务是确定记录所代表的人的收入水平，收入按50K美元水平分为二元分类问题。

This dataset comprises 199,523 records, each annotated with a binary label indicating whether the income is below or above $50K. 94% of the records in the dataset are labeled as <50K. The data is partitioned into a training set (133,680 records) and a test set (65,843 records). The predictive task is to determine the income level of the individual represented by each record, with income categorized into a binary classification problem based on the $50K threshold.

创建时间：

2019-07-10

原始信息汇总

数据集概述

数据集名称

Census-Income-Dataset-Analysis

数据集大小

总记录数：199,523
训练集记录数：133,680
测试集记录数：65,843

数据标签

标签类型：二元标签
标签描述：收入低于50K USD或高于50K USD
标签分布：94%的记录标签为低于50K USD

数据来源

数据提取自美国人口普查局数据库
数据捐赠者：Terran Lane 和 Ronny Kohavi
联系方式：terran@ecn.purdue.edu, ronnyk@sgi.com

数据划分

训练集与测试集比例：约2/3为训练集，1/3为测试集

预测任务

任务描述：确定记录代表的个人的收入水平
分类问题：二元分类问题，类似于原始的UCI/ADULT数据库
目标字段：从“总个人收入”字段提取，与原始ADULT目标字段可能表现不同

搜集汇总

数据集介绍

构建方式

Census-Income数据集源自美国人口普查局的公开数据库，旨在通过人口统计数据预测个体的收入水平。该数据集包含199,523条记录，每条记录均标注了收入是否超过50,000美元的二元标签。数据被划分为训练集和测试集，分别包含133,680条和65,843条记录，划分比例约为2:1。数据的划分采用了MineSet的MIndUtil工具，确保了数据的随机性和代表性。

特点

Census-Income数据集的特点在于其高度不平衡的类别分布，其中94%的记录标注为收入低于50,000美元。这种不平衡性为分类模型的训练带来了挑战，同时也为研究如何处理类别不平衡问题提供了实验平台。此外，数据集的标签基于“个人总收入”字段而非“调整后总收入”，这使得其与原始UCI/ADULT数据库在目标字段上存在差异，可能影响模型的预测行为。

使用方法

该数据集主要用于二元分类任务，目标是通过人口统计特征预测个体的收入水平是否超过50,000美元。用户可以通过加载数据集并划分为训练集和测试集，利用机器学习算法进行模型训练和评估。数据集附带的分析报告和代码示例为使用者提供了参考，帮助理解数据特征并选择最佳模型。此外，用户还可以通过Jupyter Notebook查看详细的分析过程，进一步探索数据的内在规律。

背景与挑战

背景概述

Census-Income数据集源于美国人口普查局的数据，由Terran Lane和Ronny Kohavi等人于20世纪90年代末期创建，旨在为数据挖掘和可视化研究提供支持。该数据集包含199,523条记录，每条记录代表一个个体，核心研究问题是通过个体的社会经济特征预测其年收入是否超过50,000美元。这一二元分类问题与经典的UCI/ADULT数据集类似，但Census-Income数据集的目标字段基于“个人总收入”而非“调整后总收入”，使其在行为上可能有所不同。该数据集在收入预测、社会经济学研究以及机器学习模型评估等领域具有重要影响力。

当前挑战

Census-Income数据集面临的主要挑战包括数据不平衡问题，其中94%的记录标签为收入低于50,000美元，这可能导致模型在训练过程中偏向多数类，影响分类性能。此外，数据集中包含大量社会经济特征，如何有效选择和组合这些特征以提高预测准确性是一个关键挑战。在构建过程中，数据分割采用了2/3训练集和1/3测试集的比例，但如何确保分割后的数据集在统计上具有代表性仍需进一步验证。最后，由于数据来源于人口普查，隐私保护和数据匿名化处理也是构建过程中不可忽视的挑战。

常用场景

经典使用场景

Census-Income-Dataset广泛应用于社会经济研究领域，特别是在收入预测模型的构建与验证中。该数据集通过提供大量的人口统计信息，如年龄、教育程度、职业等，使得研究者能够深入分析这些因素与个人收入之间的关系。经典的使用场景包括利用机器学习算法进行收入分类，预测个人年收入是否超过50,000美元。

衍生相关工作

基于Census-Income-Dataset，许多经典的研究工作得以展开。例如，研究者开发了多种机器学习模型，如决策树、支持向量机和神经网络，用于收入预测。这些模型不仅在学术界得到了广泛认可，还在实际应用中展现了较高的预测精度。此外，该数据集还催生了一系列关于数据不平衡处理、特征选择等问题的研究，进一步丰富了数据科学领域的研究内容。

数据集最近研究