US Census surveys|人口普查数据集|机器学习数据集
收藏Folktables 数据集概述
数据集简介
Folktables 是一个 Python 包,提供对从美国人口普查中派生的数据集的访问,便于机器学习算法的基准测试。该包包含一系列预定义的预测任务,涵盖收入、就业、健康、交通和住房等领域,并包括创建新预测任务的工具。每个预测任务可以在跨越多个年份和所有美国州的数据集上实例化,从而允许系统地研究分布偏移的影响。
数据集用途
Folktables 数据集可用于以下方面:
- 算法公平性评估:通过不同州的样本数据评估模型的公平性指标,如机会平等。
- 分布偏移研究:通过不同州和不同年份的数据,研究模型在分布偏移下的表现。
- 新预测任务创建:基于美国人口普查数据创建新的预测任务。
预定义预测任务
Folktables 提供以下预定义的预测任务:
- ACSIncome:预测个人收入是否超过 $50,000。
- ACSPublicCoverage:预测个人是否享有公共健康保险。
- ACSMobility:预测个人是否在过去一年中居住在同一地址。
- ACSEmployment:预测个人是否就业。
- ACSTravelTime:预测个人的通勤时间是否超过 20 分钟。
数据集使用示例
以下是一些使用 Folktables 数据集的示例:
- 评估算法公平性:使用 2018 年美国社区调查数据,评估模型在不同州的公平性。
- 分布偏移研究:训练模型使用加利福尼亚州的数据,然后在密歇根州的数据上进行测试。
- 时间分布偏移研究:训练模型使用 2014 年加利福尼亚州的数据,然后评估其在 2015-2018 年数据上的表现。
数据提取
数据可以轻松地从 pandas 数据框中提取为 CSV 格式。
创建新预测任务
Folktables 允许用户基于美国人口普查数据创建新的预测任务,通过修改现有任务的特征、目标变量和分组变量等。
数据集限制
- 应用范围:Folktables 主要用于机器学习算法的基准测试,而不是社会科学领域的实质性研究。
- 地域限制:数据集完全集中在美国,缺乏国际范围内的数据。
许可和使用条款
Folktables 提供的代码用于从美国人口普查局管理的美国社区调查公共使用微数据样本(PUMS)文件下载数据。数据本身受人口普查局使用条款的约束。
引用
如果使用 Folktables 数据集,请引用相关论文。

- 1Retiring Adult: New Datasets for Fair Machine Learning · 2022年
GAOKAO-Bench
GAOKAO-Bench是由复旦大学计算机科学与技术学院创建的数据集,涵盖了2010至2022年间中国高考的所有科目题目,共计2811题。该数据集包含1781道客观题和1030道主观题,题型多样,包括单选、填空、改错、开放性问题等。数据集通过自动化脚本和人工标注将PDF格式的题目转换为JSON文件,数学公式则转换为LATEX格式。GAOKAO-Bench旨在为大型语言模型提供一个全面且贴近实际应用的评估基准,特别是在解决中国高考相关问题上的表现。
arXiv 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
CliMedBench
CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。
arXiv 收录
Ansh007/Jellyfish-Image-Dataset
该数据集包含900张水母图像,分为六个不同的类别和物种:紫水母、月亮水母、桶水母、蓝水母、罗盘水母和狮鬃水母。这些图像可用于机器学习技术,以获得水母分类、物种识别和颜色分析的洞察。每个物种都有详细的描述,包括其特征和食物来源。此外,数据集还提供了使用案例,如水母分类、物种识别和颜色分析。
hugging_face 收录
Global Flood Database (GFD)
全球洪水数据库(GFD)是一个包含全球范围内洪水事件记录的数据集。该数据集提供了详细的洪水事件信息,包括洪水发生的时间、地点、影响范围、受灾人口和财产损失等。数据集的目的是为了支持洪水风险评估、灾害管理和气候变化研究。
global-flood-database.cloudtostreet.info 收录