US Census datasets

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/socialfoundations/folktables

下载链接

链接失效反馈

官方服务：

资源简介：

Folktables是一个Python包，提供从美国人口普查中衍生的数据集，用于机器学习算法的基准测试。该包包含一系列预定义的预测任务，涵盖收入、就业、健康、交通和住房等领域，并提供工具创建新的预测任务。此外，它还支持对分布变化影响的系统研究，每个预测任务可以在跨越多个年份和美国所有州的数据集上实例化。

Folktables is a Python package that provides datasets derived from the U.S. Census for benchmarking machine learning algorithms. The package includes a series of predefined prediction tasks covering areas such as income, employment, health, transportation, and housing, and offers tools to create new prediction tasks. Additionally, it supports systematic research on the impact of distributional shifts, with each prediction task being instantiable on datasets spanning multiple years and all U.S. states.

创建时间：

2021-06-14

原始信息汇总

数据集概述

数据集名称

Folktables

数据集来源

数据集来源于美国人口普查局，主要使用美国社区调查（ACS）的数据。

数据集目的

Folktables是一个Python包，旨在提供基于美国人口普查的数据集，以促进机器学习算法的基准测试。该包包含一系列预定义的预测任务，涵盖收入、就业、健康、交通和住房等领域，并提供工具创建新的预测任务。

数据集内容

Folktables包含以下预定义的预测任务：

ACSIncome: 预测个人收入是否超过50,000美元。
ACSPublicCoverage: 预测个人是否享有公共健康保险。
ACSMobility: 预测个人是否在过去一年内保持同一住址。
ACSEmployment: 预测个人是否就业。
ACSTravelTime: 预测个人的通勤时间是否超过20分钟。

数据集使用方法

用户可以通过Python代码直接下载和使用这些数据集，进行各种机器学习算法的评估和研究。例如，使用ACSDataSource和特定的预测任务类（如ACSEmployment）来获取和处理数据。

数据集特点

支持跨州和跨年的数据分布变化研究。
可以轻松创建新的预测任务，通过修改预定义任务的参数和特征。
数据集中的每个预测任务都可以在不同的ACS PUMS数据样本上实例化。

数据集局限性

数据集主要关注美国，缺乏国际视角。
数据集用于机器学习算法的基准测试，不直接涉及社会科学领域的深度分析。

数据集引用信息

使用Folktables数据集的研究应引用以下文献：

@article{ding2021retiring, title={Retiring Adult: New Datasets for Fair Machine Learning}, author={Ding, Frances and Hardt, Moritz and Miller, John and Schmidt, Ludwig}, journal={Advances in Neural Information Processing Systems}, volume={34}, year={2021} }

搜集汇总

数据集介绍

构建方式

Folktables数据集通过整合美国人口普查局提供的美国社区调查（ACS）数据构建而成。该数据集涵盖了多个领域的预测任务，如收入、就业、健康、交通和住房等。构建过程中，Folktables利用了ACS的公共使用微数据样本（PUMS），并通过预定义的过滤和转换函数，生成了多个具体的预测任务。每个任务都基于特定的特征集、目标变量和分组变量，确保了数据集的多样性和实用性。

特点

Folktables数据集的主要特点在于其多样性和灵活性。首先，数据集涵盖了多个年份和全美各州的数据，允许用户研究分布变化和时间效应。其次，预定义的预测任务涵盖了多个社会经济领域，如收入、就业和健康保险等，满足了不同研究需求。此外，数据集支持用户自定义预测任务，通过调整特征、目标变量和分组变量，进一步扩展了其应用范围。

使用方法

使用Folktables数据集时，用户可以通过Python包进行安装和调用。数据集提供了多个预定义的预测任务，用户可以直接加载并用于机器学习模型的训练和评估。例如，用户可以选择特定年份和州的数据，加载相应的特征、标签和分组信息，进行模型训练和公平性评估。此外，用户还可以自定义预测任务，通过调整任务的特征集、目标变量和分组变量，满足特定的研究需求。

背景与挑战

背景概述

Folktables数据集是由美国人口普查数据衍生而来，旨在为机器学习算法提供基准测试的数据集。该数据集由主要研究人员和机构开发，核心研究问题围绕如何利用美国人口普查数据进行预测任务，如收入、就业、健康、交通和住房等领域。Folktables的创建不仅为机器学习社区提供了丰富的数据资源，还通过多州和多年的数据分布变化，支持了对分布偏移的研究。该数据集的发布对相关领域的研究具有重要影响，尤其是在公平机器学习和分布偏移研究方面。

当前挑战

Folktables数据集面临的挑战主要包括两个方面。首先，数据集的构建过程中需要处理来自不同州和年份的数据分布变化，这增加了数据集的复杂性和多样性，同时也带来了分布偏移的挑战。其次，数据集的使用需要考虑隐私保护问题，因为美国人口普查数据涉及个人隐私，数据中可能存在微小的扰动或变量值的交换，这可能影响个体预测的准确性。此外，如何在不同环境和任务中保持算法的公平性和鲁棒性也是该数据集面临的重要挑战。

常用场景

经典使用场景

Folktables数据集的经典使用场景主要集中在机器学习算法的基准测试中，特别是在公平性和鲁棒性评估方面。通过提供来自美国各州和不同年份的多样化数据，该数据集允许研究者在不同的分布环境下测试模型性能，尤其是在处理分布偏移（distribution shift）问题时。例如，研究者可以利用该数据集评估模型在不同州或不同年份数据上的表现，从而验证模型的泛化能力和鲁棒性。

衍生相关工作

Folktables数据集的发布催生了一系列相关研究工作，特别是在公平机器学习和分布偏移研究领域。例如，研究者利用该数据集开发了新的公平性评估方法，并提出了针对分布偏移的鲁棒性算法。此外，该数据集还被用于验证多种机器学习模型的泛化能力，尤其是在跨州和跨年份数据上的表现。这些研究工作进一步推动了机器学习在社会科学和政策制定中的应用。

数据集最近研究