scikit-learn/adult-census-income

Name: scikit-learn/adult-census-income
Creator: scikit-learn
Published: 2022-06-20 14:46:43
License: 暂无描述

Hugging Face2022-06-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/scikit-learn/adult-census-income

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从1994年美国人口普查局数据库中提取的，提取条件包括年龄大于16岁、调整后总收入大于100、最终权重大于1以及每周工作时间大于0。预测任务是判断一个人年收入是否超过5万美元。最终权重（fnlwgt）的计算方法包括使用三组控制变量进行加权，并通过六次迭代确保权重的准确性。

This dataset is extracted from the 1994 United States Census Bureau database, with inclusion criteria including age over 16, adjusted gross income greater than 100, final weight (fnlwgt) greater than 1, and weekly working hours greater than 0. The prediction task is to determine whether an individual's annual income exceeds $50,000. The final weight (fnlwgt) is calculated using three sets of control variables for weighting, and six iterations are carried out to ensure the accuracy of the weights.

提供机构：

scikit-learn

原始信息汇总

Adult Census Income Dataset

数据来源

该数据集从UCI机器学习资源库获取，网址为：UCI machine learning repository。

数据提取

数据由Ronny Kohavi和Barry Becker从1994年人口普查局数据库中提取。
提取条件：年龄大于16岁、年收入大于100、工作权重大于1、每周工作时间大于0。

预测任务

预测任务是确定一个人年收入是否超过50000美元。

数据特征描述

fnlwgt (final weight):
- 该权重用于当前人口调查（CPS）文件，以独立估计美国非机构化平民人口。
- 使用三组控制：
  - 每个州16岁以上人口的单一单元估计。
  - 按年龄和性别控制的西班牙裔起源。
  - 按种族、年龄和性别控制。
- 通过6次“rake”过程，最终回归所有使用的控制。
- 估计指的是通过创建人口的“加权总计”来从CPS导出的人口总数。
- 具有相似人口特征的人应具有相似的权重。
- 注意：此陈述仅适用于各州内部，因为CPS样本实际上是51个州样本的集合，每个样本都有自己的选择概率。

许可证

该数据集遵循CC0-1.0许可证。

搜集汇总

数据集介绍

构建方式

在人口统计学与机器学习交叉领域，Adult Census Income数据集作为经典基准，其构建过程体现了严谨的数据筛选原则。该数据集源自1994年美国人口普查局数据库，由Ronny Kohavi和Barry Becker通过数据挖掘技术提取。构建时采用了明确的条件过滤：选取年龄大于16岁、调整后总收入超过100美元、最终权重大于1且每周工作时长大于0的个体记录，确保数据质量与实用性，为收入预测任务奠定基础。

特点

该数据集的核心特点在于其多维度的社会经济属性覆盖与精细的权重设计。它包含年龄、教育程度、职业等人口统计变量，并特别引入了最终权重（fnlwgt），该权重通过当前人口调查文件与独立人口估计的校准生成，融合了州级人口、西班牙裔来源以及种族年龄性别的三层控制，经过六次迭代调整，使样本能更准确地反映美国非机构化平民人口的分布，增强了数据的代表性与统计稳健性。

使用方法

在机器学习应用场景中，该数据集主要用于二分类预测任务，即判断个体年收入是否超过5万美元。使用者可借助scikit-learn等工具加载数据，进行特征工程如编码分类变量、处理缺失值，并构建分类模型如逻辑回归或决策树。数据集的清晰结构与丰富特征支持模型训练与评估，常用于收入不平等研究、算法公平性检验及教育预测等实证分析，为社会经济决策提供数据驱动见解。

背景与挑战

背景概述

成人人口普查收入数据集由Ronny Kohavi和Barry Becker于1994年从美国人口普查局数据库中提取，隶属于硅图形公司的数据挖掘与可视化研究项目。该数据集旨在通过社会经济特征预测个体年收入是否超过五万美元，核心研究问题聚焦于收入水平的分类建模。作为早期机器学习领域的经典基准，它为人口统计学分析、经济预测及公平性研究提供了重要实证基础，推动了分类算法与可解释性人工智能的发展。

当前挑战

该数据集需应对收入预测中固有的社会经济复杂性挑战，如特征间的非线性交互、类别不平衡及敏感属性（如种族、性别）可能引发的算法偏见。构建过程中，数据源自多州抽样调查，需通过加权调整（如最终权重fnlwgt）以反映总体人口结构，但州际抽样概率差异使权重仅适用于州内推断，增加了数据代表性与跨域泛化的难度。

常用场景

经典使用场景

在机器学习与数据挖掘领域，Adult Census Income数据集常被用作分类任务的基准测试工具，尤其适用于收入预测模型的开发与评估。该数据集通过1994年美国人口普查数据，构建了一个包含年龄、教育程度、职业等多维特征的样本集合，旨在预测个体年收入是否超过5万美元。这一场景不仅为监督学习算法提供了丰富的训练与验证素材，还促进了特征工程、模型选择及性能比较等关键环节的深入研究，成为学术界和工业界广泛采纳的标准数据集之一。

解决学术问题

该数据集有效解决了机器学习中类别不平衡、特征相关性分析以及模型泛化能力评估等常见学术问题。通过提供真实世界的人口统计与经济数据，研究者能够深入探讨社会经济因素与收入水平之间的复杂关联，从而推动公平性感知算法、偏差检测及因果推断方法的发展。其意义在于为社会经济不平等研究提供了量化工具，促进了机器学习在社会科学领域的交叉应用，对政策制定和社会公平性评估产生了深远影响。

衍生相关工作

基于Adult Census Income数据集，学术界衍生了一系列经典研究工作，包括公平机器学习算法的开发、如减少预测偏差的重新加权技术，以及因果推断模型的探索。此外，该数据集常被用于对比不同分类器（如逻辑回归、决策树与神经网络）的性能，推动了可解释人工智能与自动化机器学习框架的发展。这些工作不仅丰富了机器学习理论体系，还为解决现实世界中的社会经济问题提供了创新性方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集