folktexts

Hugging Face2024-11-28 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/acruz/folktexts

下载链接

链接失效反馈

官方服务：

资源简介：

folktexts数据集是一组从美国人口普查数据产品中提取的问答数据集，特别是来自2018年公共使用微数据样本（PUMS）。这些数据集旨在评估大型语言模型（LLMs）在具有自然结果不确定性的任务上的校准情况。每个任务涉及从年龄、种族、教育程度和职业等人口统计特征预测不同的个人特征，如收入、就业状况、公共健康保险覆盖率、流动性和通勤时间。数据集以多选问答格式和数字问答格式提供，使用官方ACS PUMS代码本将特征映射为自然文本。任务名称遵循folktables表格数据集的命名惯例，包括ACSIncome、ACSEmployment、ACSPublicCoverage、ACSMobility和ACSTravelTime。数据集分为训练、验证和测试集，测试集用于评估零样本LLM性能。

创建时间：

2024-11-27

原始信息汇总

Dataset Card for folktexts

Dataset Details

Dataset Description

Language(s): English
License: Code is licensed under the MIT license; Data license is governed by the U.S. Census Bureau terms of service.

Dataset Sources

Repository: https://github.com/socialfoundations/folktexts
Paper: https://arxiv.org/pdf/2407.14614
Data source: 2018 American Community Survey Public Use Microdata Sample

Uses

The datasets were originally used to evaluate LLMs ability to produce calibrated and accurate risk scores in the Cruz et al. (2024) paper.

Dataset Structure

Description of Dataset Columns

id: A unique row identifier.
description: A textual description of an individuals features, following a bulleted-list format.
instruction: The instruction used for zero-shot LLM prompting (should be pre-appended to the row description).
question: A question relating to the tasks target column.
choices: A list of two answer options relating to the above question.
answer: The correct answer from the above list of answer options.
answer_key: The correct answer key; i.e., A for the first choice, or B for the second choice.
choice_question_prompt: The full multiple-choice Q&A text string used for LLM prompting.
numeric_question: A version of the question that prompts for a numeric output instead of a discrete choice output.
label: The tasks label. This is the correct output to the above numeric question.
numeric_question_prompt: The full numeric Q&A text string used for LLM prompting.
<tabular-columns>: All other columns correspond to the tabular features in this task. Each of these features will also appear in text form on the above description column.

Splits

The dataset was randomly split in training, test, and validation data, following an 80%/10%/10% split.

Dataset Creation

Source Data

The datasets are based on publicly available data from the American Community Survey (ACS) Public Use Microdata Sample (PUMS), namely the 2018 ACS 1-year PUMS files.

Data Collection and Processing

The categorical values were mapped to meaningful natural language representations using the folktexts package, which in turn uses the official ACS PUMS codebook.

Source Data Producers

U.S. Census Bureau.

Citation

If you find this useful in your research, please consider citing the following paper:

bib @inproceedings{ cruz2024evaluating, title={Evaluating language models as risk scores}, author={Andr{e} F Cruz and Moritz Hardt and Celestine Mendler-D{"u}nner}, booktitle={The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2024}, url={https://openreview.net/forum?id=qrZxL3Bto9} }

More Information

More information is available in the folktexts package repository and the accompanying paper.

Dataset Card Authors

André F. Cruz

搜集汇总

数据集介绍

构建方式

folktexts数据集基于美国社区调查（ACS）的公开使用微数据样本（PUMS），特别是2018年的ACS 1年PUMS文件。数据通过`folktexts`包将分类值映射为自然语言表示，并利用官方ACS PUMS代码书进行处理。数据下载和处理过程得到了`folktables` Python包的辅助，该包使用美国人口普查局的官方Web API。

特点

folktexts数据集包含多个自然语言问答任务，旨在评估大语言模型（LLM）在不可实现任务上的校准能力。每个任务都涉及从一组人口统计特征中预测不同的个体特征，如收入、就业等。数据集的一个重要特点是每个任务都存在自然结果不确定性，即描述每行的特征并不唯一确定任务的标签。数据集以标准的多项选择问答格式和数字问答格式提供，后者通过数值提示（verbalized prompting）提高零样本LLM风险分数的校准。

使用方法

folktexts数据集可用于评估LLM在生成校准和准确风险分数方面的能力，特别是在不可实现任务上的表现。数据集还可用于评估LLM决策的公平性，因为每行数据包含受保护的人口统计属性，如性别和种族。数据集被随机分为训练集、测试集和验证集，分别用于模型微调、零样本LLM性能评估和超参数调优。测试集应仅用于评估零样本LLM性能，训练集可用于微调或拟合传统监督学习模型，验证集则用于超参数调优或特征工程。

背景与挑战

背景概述

Folktexts数据集由André F. Cruz等人于2024年提出，旨在评估大型语言模型（LLMs）在不可实现任务上的校准能力。该数据集基于2018年美国社区调查（ACS）的公开微数据样本（PUMS），通过将分类值映射为自然语言表示，生成了多个问答任务。这些任务涉及预测个体的收入、就业、公共医疗保险覆盖等特征，每个任务都包含了自然的结果不确定性。Folktexts的提出为算法公平性和分布偏移领域的研究提供了新的工具，特别是在评估LLMs的校准和公平性方面具有重要意义。

当前挑战

Folktexts数据集在构建和应用过程中面临多重挑战。首先，数据集的核心任务涉及预测个体的特征，但由于数据本身的复杂性，这些特征往往无法通过简单的分类模型准确预测，模型需要输出介于0和1之间的分数，而非离散标签。其次，数据集的构建依赖于美国社区调查的公开数据，数据的收集和处理过程需要严格遵循官方代码书和API，确保数据的准确性和一致性。此外，数据集中包含的受保护属性（如性别和种族）在评估模型公平时可能引发伦理和隐私问题，如何在保证数据可用性的同时保护个体隐私是一个亟待解决的挑战。

常用场景

经典使用场景

folktexts数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLMs）在处理不可实现任务时的校准能力。通过将美国人口普查数据转化为自然语言问答形式，该数据集为研究者提供了一个独特的平台，用于测试模型在预测个体特征（如收入、就业状况等）时的表现。特别是在处理具有自然结果不确定性的任务时，模型需要输出介于0和1之间的细致分数，而非简单的二元标签。

解决学术问题

folktexts数据集解决了在自然语言处理中如何评估模型校准性的重要学术问题。传统的模型评估往往侧重于准确性，而忽略了模型在不确定性任务中的表现。该数据集通过引入自然结果不确定性，迫使模型在预测时不仅要考虑特征的确定性，还要处理结果的模糊性。这一特性使得研究者能够更全面地评估模型的鲁棒性和可靠性，特别是在涉及公平性和分布偏移的场景中。

衍生相关工作

folktexts数据集衍生了一系列相关研究，特别是在算法公平性和分布偏移领域。基于该数据集的研究工作探讨了如何在模型训练和评估中引入公平性约束，以减少对特定群体的偏见。此外，该数据集还被用于研究模型在不同数据分布下的表现，特别是在面对数据偏移时的鲁棒性。这些研究不仅推动了自然语言处理技术的发展，还为构建更加公平和可靠的AI系统提供了理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集