five

US Census surveys|人口普查数据集|机器学习数据集

收藏
arXiv2022-01-10 更新2024-07-30 收录
人口普查
机器学习
下载链接:
https://github.com/zykls/folktables
下载链接
链接失效反馈
资源简介:
一组新的数据集,源自美国人口普查调查,扩展了公平机器学习研究的现有数据生态系统。数据集涵盖了多个年份和全美所有州,允许研究者研究时间变化的趋势和地理差异。
创建时间:
2021-08-11
原始信息汇总

Folktables 数据集概述

数据集简介

Folktables 是一个 Python 包,提供对从美国人口普查中派生的数据集的访问,便于机器学习算法的基准测试。该包包含一系列预定义的预测任务,涵盖收入、就业、健康、交通和住房等领域,并包括创建新预测任务的工具。每个预测任务可以在跨越多个年份和所有美国州的数据集上实例化,从而允许系统地研究分布偏移的影响。

数据集用途

Folktables 数据集可用于以下方面:

  • 算法公平性评估:通过不同州的样本数据评估模型的公平性指标,如机会平等。
  • 分布偏移研究:通过不同州和不同年份的数据,研究模型在分布偏移下的表现。
  • 新预测任务创建:基于美国人口普查数据创建新的预测任务。

预定义预测任务

Folktables 提供以下预定义的预测任务:

  • ACSIncome:预测个人收入是否超过 $50,000。
  • ACSPublicCoverage:预测个人是否享有公共健康保险。
  • ACSMobility:预测个人是否在过去一年中居住在同一地址。
  • ACSEmployment:预测个人是否就业。
  • ACSTravelTime:预测个人的通勤时间是否超过 20 分钟。

数据集使用示例

以下是一些使用 Folktables 数据集的示例:

  • 评估算法公平性:使用 2018 年美国社区调查数据,评估模型在不同州的公平性。
  • 分布偏移研究:训练模型使用加利福尼亚州的数据,然后在密歇根州的数据上进行测试。
  • 时间分布偏移研究:训练模型使用 2014 年加利福尼亚州的数据,然后评估其在 2015-2018 年数据上的表现。

数据提取

数据可以轻松地从 pandas 数据框中提取为 CSV 格式。

创建新预测任务

Folktables 允许用户基于美国人口普查数据创建新的预测任务,通过修改现有任务的特征、目标变量和分组变量等。

数据集限制

  • 应用范围:Folktables 主要用于机器学习算法的基准测试,而不是社会科学领域的实质性研究。
  • 地域限制:数据集完全集中在美国,缺乏国际范围内的数据。

许可和使用条款

Folktables 提供的代码用于从美国人口普查局管理的美国社区调查公共使用微数据样本(PUMS)文件下载数据。数据本身受人口普查局使用条款的约束。

引用

如果使用 Folktables 数据集,请引用相关论文。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过从美国人口普查局提供的可用数据源中重建UCI Adult数据集的超集来构建。研究团队首先确定了UCI Adult数据集的原始来源,即1994年的当前人口调查(CPS)年度社会和经济补充(ASEC)数据。随后,通过IPUMS接口访问CPS数据,并匹配UCI Adult数据集中的15个特征,确保每个特征在IPUMS CPS数据中都能找到精确匹配。最终,重建的数据集包含49,531行,略多于UCI Adult的48,842行,且13个特征完全匹配,1个特征接近匹配。此外,研究团队还从美国社区调查(ACS)的公共使用微数据样本(PUMS)中构建了新的预测任务数据集,涵盖多个领域如收入、就业、健康、交通和住房,并提供了跨年份和州的数据,以支持时间变化和地理差异的研究。
特点
该数据集的主要特点在于其广泛的地理和时间覆盖范围,涵盖了美国所有州和多个年份的数据,允许研究者探索时间变化和地理差异对算法公平性的影响。此外,数据集包含了多个预测任务,如收入、就业、健康保险覆盖、住房流动性等,这些任务涉及敏感属性如年龄、性别和种族,适合用于算法公平性研究。数据集还提供了灵活的API,允许用户根据需求自定义新的预测任务。
使用方法
该数据集可用于评估和比较不同算法公平性干预措施的效果,特别是在不同地理和时间背景下的表现。用户可以通过Python包folktables访问数据集,并使用提供的API创建新的预测任务。数据集支持多种机器学习模型的训练和测试,如梯度提升决策树(GBM)、逻辑回归等。研究者可以通过分析不同州和年份的数据,评估算法在不同分布下的表现,并探讨公平性标准和干预措施的稳定性。此外,数据集还可用于因果推断方法的测试,以进一步理解算法在不同情境下的表现。
背景与挑战
背景概述
US Census surveys数据集源自1994年的美国人口普查调查,由加州大学伯克利分校的研究人员Frances Ding、Moritz Hardt、John Miller和Ludwig Schmidt重建并扩展。该数据集的核心研究问题围绕机器学习中的公平性展开,旨在通过重建UCI Adult数据集的超集,揭示其局限性,并提供一系列新的数据集,以支持公平机器学习的研究。这些新数据集涵盖了收入、就业、健康、交通和住房等多个领域,跨越多个年份和全美各州,允许研究人员研究时间变化和地理差异。该数据集的创建对公平机器学习领域产生了深远影响,为算法公平性干预的开发和比较提供了新的基准。
当前挑战
US Census surveys数据集在构建过程中面临多项挑战。首先,UCI Adult数据集的年龄、有限的文档和过时的特征编码等问题显而易见,但其二元收入标签的设定(即收入是否超过50,000美元)存在显著的外部有效性问题,尤其是在不同种族和性别群体中的适用性。其次,构建新的预测任务时,研究人员需要处理数据的时间和地理分布变化,确保模型在不同情境下的泛化能力。此外,尽管数据集规模增加,但并未自动减少观察到的差异,这表明社会不平等在数据中持续存在,算法公平性干预的效果可能受到限制。最后,如何在不同州或全国范围内应用公平性干预,以及如何处理数据分布变化带来的挑战,也是该数据集面临的重要问题。
常用场景
经典使用场景
US Census surveys数据集的经典使用场景主要集中在公平机器学习领域,尤其是在算法公平性干预的研究中。该数据集被广泛用于开发和比较不同的算法公平性干预措施,特别是在收入、就业、健康、交通和住房等领域的预测任务中。通过这些任务,研究人员可以探讨不同公平性标准之间的权衡,以及算法干预在不同地理和时间维度上的表现。
衍生相关工作
US Census surveys数据集的发布催生了许多相关的工作,特别是在公平机器学习领域。例如,研究人员基于该数据集开发了新的公平性评估方法,探讨了不同公平性标准在不同地理和时间维度上的表现。此外,该数据集还激发了对现有公平性干预算法的重新评估,推动了公平性研究在理论和实践上的进一步发展。
数据集最近研究
最新研究方向
近年来,US Census surveys数据集在公平机器学习领域的研究中得到了广泛关注。研究者们通过重建UCI Adult数据集的扩展版本,揭示了原有数据集的局限性,并提出了新的数据集,涵盖收入、就业、健康、交通和住房等多个预测任务。这些新数据集不仅跨越多个年份和全美各州,还允许研究者探讨时间变化和地理差异对算法公平性的影响。研究结果表明,不同州的公平性标准和干预措施的效果存在显著差异,且算法在不同地理环境中的迁移性较差。此外,研究还发现,随着数据集规模的增加和社会进步,观察到的差异并未显著减少,这为未来的公平性研究提供了新的方向。
相关研究论文
  • 1
    Retiring Adult: New Datasets for Fair Machine Learning · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GAOKAO-Bench

GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

Ansh007/Jellyfish-Image-Dataset

该数据集包含900张水母图像,分为六个不同的类别和物种:紫水母、月亮水母、桶水母、蓝水母、罗盘水母和狮鬃水母。这些图像可用于机器学习技术,以获得水母分类、物种识别和颜色分析的洞察。每个物种都有详细的描述,包括其特征和食物来源。此外,数据集还提供了使用案例,如水母分类、物种识别和颜色分析。

hugging_face 收录

Global Flood Database (GFD)

全球洪水数据库(GFD)是一个包含全球范围内洪水事件记录的数据集。该数据集提供了详细的洪水事件信息,包括洪水发生的时间、地点、影响范围、受灾人口和财产损失等。数据集的目的是为了支持洪水风险评估、灾害管理和气候变化研究。

global-flood-database.cloudtostreet.info 收录