jlh/uci-adult-income

Hugging Face2023-04-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jlh/uci-adult-income

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: age dtype: int64 - name: workclass dtype: string - name: fnlwgt dtype: int64 - name: education dtype: string - name: education-num dtype: int64 - name: marital-status dtype: string - name: occupation dtype: string - name: relationship dtype: string - name: race dtype: string - name: sex dtype: string - name: capital-gain dtype: int64 - name: capital-loss dtype: int64 - name: hours-per-week dtype: int64 - name: native-country dtype: string - name: income dtype: class_label: names: '0': ' <=50K' '1': ' >50K' splits: - name: train num_bytes: 5552570 num_examples: 32561 download_size: 586658 dataset_size: 5552570 --- # Dataset Card for "uci-adult-income" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息：特征： - 年龄（age）：64位整数（int64）类型 - 工作类别（workclass）：字符串（string）类型 - 最终权重（fnlwgt）：64位整数（int64）类型 - 受教育程度（education）：字符串（string）类型 - 受教育年数（education-num）：64位整数（int64）类型 - 婚姻状况（marital-status）：字符串（string）类型 - 职业（occupation）：字符串（string）类型 - 家庭关系（relationship）：字符串（string）类型 - 种族（race）：字符串（string）类型 - 性别（sex）：字符串（string）类型 - 资本收益（capital-gain）：64位整数（int64）类型 - 资本损失（capital-loss）：64位整数（int64）类型 - 每周工作时长（hours-per-week）：64位整数（int64）类型 - 原籍国家（native-country）：字符串（string）类型 - 收入（income）：分类标签（class_label）类型，其类别名称为： '0' 对应 ' <=50K'（年收入不超过50千美元），'1' 对应 ' >50K'（年收入超过50千美元）数据集划分： - 训练集（train）：字节大小为5552570，样本量为32561 下载大小：586658字节数据集总大小：5552570字节 # 「uci-adult-income」数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

jlh

原始信息汇总

数据集概述

数据集名称

uci-adult-income

数据集特征

age: 整数类型 (int64)
workclass: 字符串类型 (string)
fnlwgt: 整数类型 (int64)
education: 字符串类型 (string)
education-num: 整数类型 (int64)
marital-status: 字符串类型 (string)
occupation: 字符串类型 (string)
relationship: 字符串类型 (string)
race: 字符串类型 (string)
sex: 字符串类型 (string)
capital-gain: 整数类型 (int64)
capital-loss: 整数类型 (int64)
hours-per-week: 整数类型 (int64)
native-country: 字符串类型 (string)
income: 分类标签，包含两个类别：
- 0: <=50K
- 1: >50K

数据集分割

train:
- 数据大小: 5552570 字节
- 示例数量: 32561

数据集大小

下载大小: 586658 字节
总数据大小: 5552570 字节

搜集汇总

数据集介绍

构建方式

在社会科学与机器学习交叉领域，UCI Adult Income数据集作为经典基准，其构建过程体现了严谨的数据采集原则。该数据集源自1994年美国人口普查局的数据，通过系统抽样方法获取了32,561条个体记录。每条记录包含14个属性特征，涵盖人口统计学变量如年龄、职业、教育程度，以及经济指标如资本收益与工作时长。数据经过清洗与标准化处理，确保连续型与分类型变量的完整性，最终形成结构化的二分类任务框架，旨在预测个体年收入是否超过五万美元。

特点

该数据集的核心特点在于其多维度的社会经济学属性集成，为收入不平等研究提供了丰富视角。特征集合包括离散型的职业类别、婚姻状况与种族信息，以及连续型的年龄、资本损益数值，共同构建了复杂的现实世界映射。数据集的标签分布呈现明显的类别不平衡，收入低于或等于五万美元的样本占主导，这反映了真实社会经济结构中的收入分布态势。其紧凑的规模与清晰的字段定义，使得该数据集成为评估分类算法鲁棒性与公平性的理想测试平台。

使用方法

在应用层面，UCI Adult Income数据集通常服务于监督学习模型的训练与验证。研究者可将其划分为训练集与测试集，利用逻辑回归、决策树或神经网络等算法，基于多维特征预测收入等级。使用过程中需注意处理缺失值与类别编码，例如将字符串型变量转化为数值表示。该数据集亦常用于公平性机器学习研究，通过分析不同人口亚组（如性别、种族）上的预测性能差异，以评估和缓解算法偏见，推动负责任人工智能的发展。

背景与挑战

背景概述

UCI Adult Income数据集源于1994年加州大学欧文分校机器学习知识库的经典贡献，由Ronny Kohavi与Barry Becker等研究人员基于1994年美国人口普查数据构建而成。该数据集旨在探究社会经济因素与个人收入水平之间的关联性，核心研究问题聚焦于通过人口统计学特征预测年收入是否超过五万美元。作为机器学习领域基准数据集，其推动了分类算法、公平性机器学习及可解释性人工智能的研究，对社会科学与计算科学的交叉领域产生了深远影响。

当前挑战

该数据集所针对的收入预测问题，本质上面临着高维离散特征处理、类别不平衡以及社会经济变量间复杂非线性关系的建模挑战。在构建过程中，原始普查数据存在大量缺失值与噪声，需进行复杂的清洗与编码转换；同时，数据采集年代较早，其反映的社会经济结构已与当代情境存在差异，可能影响模型在现实场景中的泛化能力。此外，数据中隐含的人口统计学偏差，如种族与性别分布的不均衡，亦对构建公平无偏的预测模型提出了严峻考验。

常用场景

经典使用场景

在机器学习与数据科学领域，UCI Adult Income数据集作为人口普查数据的经典代表，常被用于监督学习任务中的二分类问题。研究者利用该数据集中的年龄、教育程度、职业等14个特征，构建预测模型以判断个体年收入是否超过5万美元。这一场景不仅检验了分类算法的性能，还深入探讨了社会经济因素与收入水平之间的复杂关联，为理解数据驱动决策提供了实证基础。

实际应用

在实际应用中，UCI Adult Income数据集被广泛用于金融风险评估、社会保障政策模拟及就业市场分析。金融机构可借助收入预测模型优化信贷审批流程，政府部门则能模拟税收或福利政策的社会经济影响。这些应用不仅提升了决策的科学性，还助力于资源分配的效率与公平，体现了数据科学在公共服务与商业智能中的现实价值。

衍生相关工作

围绕该数据集，衍生出众多经典研究工作，如公平机器学习领域的“Adversarial Debiasing”方法，旨在减少模型对敏感属性的依赖。同时，它催生了关于因果推断与可解释AI的探索，例如使用SHAP值解析收入预测中的特征贡献。这些工作深化了我们对数据偏差与模型伦理的理解，为后续人口统计建模设立了基准与灵感源泉。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集