five

Census-Income-Dataset

收藏
github2020-05-28 更新2024-05-31 收录
下载链接:
https://github.com/axg170018/Census-Income-Dataset-Analysis
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含199,523条记录,每条记录都有一个二元标签,指示收入是否低于50K或高于50K美元。数据集中94%的记录标签为<50K。数据被分为训练集(133,680条记录)和测试集(65,843条记录)。预测任务是确定记录所代表的人的收入水平,收入按50K美元水平分为二元分类问题。

This dataset comprises 199,523 records, each annotated with a binary label indicating whether the income is below or above $50K. 94% of the records in the dataset are labeled as <50K. The data is partitioned into a training set (133,680 records) and a test set (65,843 records). The predictive task is to determine the income level of the individual represented by each record, with income categorized into a binary classification problem based on the $50K threshold.
创建时间:
2019-07-10
原始信息汇总

数据集概述

数据集名称

Census-Income-Dataset-Analysis

数据集大小

  • 总记录数:199,523
  • 训练集记录数:133,680
  • 测试集记录数:65,843

数据标签

  • 标签类型:二元标签
  • 标签描述:收入低于50K USD或高于50K USD
  • 标签分布:94%的记录标签为低于50K USD

数据来源

  • 数据提取自美国人口普查局数据库
  • 数据捐赠者:Terran Lane 和 Ronny Kohavi
  • 联系方式:terran@ecn.purdue.edu, ronnyk@sgi.com

数据划分

  • 训练集与测试集比例:约2/3为训练集,1/3为测试集

预测任务

  • 任务描述:确定记录代表的个人的收入水平
  • 分类问题:二元分类问题,类似于原始的UCI/ADULT数据库
  • 目标字段:从“总个人收入”字段提取,与原始ADULT目标字段可能表现不同
搜集汇总
数据集介绍
main_image_url
构建方式
Census-Income数据集源自美国人口普查局的公开数据库,旨在通过人口统计数据预测个体的收入水平。该数据集包含199,523条记录,每条记录均标注了收入是否超过50,000美元的二元标签。数据被划分为训练集和测试集,分别包含133,680条和65,843条记录,划分比例约为2:1。数据的划分采用了MineSet的MIndUtil工具,确保了数据的随机性和代表性。
特点
Census-Income数据集的特点在于其高度不平衡的类别分布,其中94%的记录标注为收入低于50,000美元。这种不平衡性为分类模型的训练带来了挑战,同时也为研究如何处理类别不平衡问题提供了实验平台。此外,数据集的标签基于“个人总收入”字段而非“调整后总收入”,这使得其与原始UCI/ADULT数据库在目标字段上存在差异,可能影响模型的预测行为。
使用方法
该数据集主要用于二元分类任务,目标是通过人口统计特征预测个体的收入水平是否超过50,000美元。用户可以通过加载数据集并划分为训练集和测试集,利用机器学习算法进行模型训练和评估。数据集附带的分析报告和代码示例为使用者提供了参考,帮助理解数据特征并选择最佳模型。此外,用户还可以通过Jupyter Notebook查看详细的分析过程,进一步探索数据的内在规律。
背景与挑战
背景概述
Census-Income数据集源于美国人口普查局的数据,由Terran Lane和Ronny Kohavi等人于20世纪90年代末期创建,旨在为数据挖掘和可视化研究提供支持。该数据集包含199,523条记录,每条记录代表一个个体,核心研究问题是通过个体的社会经济特征预测其年收入是否超过50,000美元。这一二元分类问题与经典的UCI/ADULT数据集类似,但Census-Income数据集的目标字段基于“个人总收入”而非“调整后总收入”,使其在行为上可能有所不同。该数据集在收入预测、社会经济学研究以及机器学习模型评估等领域具有重要影响力。
当前挑战
Census-Income数据集面临的主要挑战包括数据不平衡问题,其中94%的记录标签为收入低于50,000美元,这可能导致模型在训练过程中偏向多数类,影响分类性能。此外,数据集中包含大量社会经济特征,如何有效选择和组合这些特征以提高预测准确性是一个关键挑战。在构建过程中,数据分割采用了2/3训练集和1/3测试集的比例,但如何确保分割后的数据集在统计上具有代表性仍需进一步验证。最后,由于数据来源于人口普查,隐私保护和数据匿名化处理也是构建过程中不可忽视的挑战。
常用场景
经典使用场景
Census-Income-Dataset广泛应用于社会经济研究领域,特别是在收入预测模型的构建与验证中。该数据集通过提供大量的人口统计信息,如年龄、教育程度、职业等,使得研究者能够深入分析这些因素与个人收入之间的关系。经典的使用场景包括利用机器学习算法进行收入分类,预测个人年收入是否超过50,000美元。
衍生相关工作
基于Census-Income-Dataset,许多经典的研究工作得以展开。例如,研究者开发了多种机器学习模型,如决策树、支持向量机和神经网络,用于收入预测。这些模型不仅在学术界得到了广泛认可,还在实际应用中展现了较高的预测精度。此外,该数据集还催生了一系列关于数据不平衡处理、特征选择等问题的研究,进一步丰富了数据科学领域的研究内容。
数据集最近研究
最新研究方向
在收入预测与分类领域,Census-Income-Dataset作为一项重要的基准数据集,近年来被广泛应用于机器学习模型的性能评估与优化。该数据集通过对美国人口普查数据的深入分析,提供了199,523条记录,重点关注年收入是否超过50,000美元的二元分类问题。当前研究热点集中于利用该数据集探索不平衡数据分类问题,因其94%的样本标签为低收入(<50K),这对模型的泛化能力提出了更高要求。研究者们通过引入先进的深度学习架构、集成学习方法以及数据增强技术,试图提升模型对少数类样本的识别能力。此外,该数据集还被用于研究公平性机器学习,旨在减少模型对性别、种族等敏感属性的偏见。这些研究不仅推动了收入预测技术的进步,也为社会经济学和政策制定提供了数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作