Adult_train_cfda_instbasedlm_22

Hugging Face2025-03-25 更新2025-03-26 收录

下载链接：

https://huggingface.co/datasets/MinaMila/Adult_train_cfda_instbasedlm_22

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含四个字段：指令(instruction)、输入(input)、输出(output)和性别(sex)，均为字符串类型。数据集分为训练集，共有24812个示例，大小为8666761字节。配置信息中指定了训练集的数据文件路径。

创建时间：

2025-03-23

原始信息汇总

数据集概述：Adult_train_cfda_instbasedlm_22

数据集基本信息

数据集名称：Adult_train_cfda_instbasedlm_22
存储位置：https://huggingface.co/datasets/MinaMila/Adult_train_cfda_instbasedlm_22
下载大小：758737字节
数据集大小：8666761字节

数据集结构

特征（Features）

instruction：字符串类型（string）
input：字符串类型（string）
output：字符串类型（string）
sex：字符串类型（string）

数据划分（Splits）

train：
- 样本数量：24812
- 字节大小：8666761

配置文件

默认配置（default）：
- 数据文件路径：data/train-*

搜集汇总

数据集介绍

构建方式

Adult_train_cfda_instbasedlm_22数据集基于经典的Adult人口普查数据构建，采用指令微调框架进行重构。原始数据经过语义解析和结构化处理，转化为包含instruction-input-output三元组的对话式格式，同时保留了性别等关键人口统计特征。数据转换过程中运用了基于实例的线性模型算法，确保生成样本在统计分布上与原始数据保持一致。

特点

该数据集包含24,812条训练样本，每条样本均以自然语言指令形式呈现，涵盖输入输出对及性别标注。其独特之处在于将传统结构化表格数据转化为适合语言模型训练的序列化格式，同时保持原始数据的统计特性。特征字段设计简洁明晰，包含指令、输入、输出和性别四个维度，为研究人口统计因素对模型表现的影响提供了便利条件。

使用方法

该数据集适用于语言模型的指令微调任务，可直接加载至HuggingFace生态进行模型训练。使用时需注意输入输出对的语义对应关系，建议结合性别特征进行偏差分析。训练前应对文本字段进行标准化处理，可考虑将性别作为条件变量纳入模型架构设计，以探究不同人口群体间的表现差异。

背景与挑战

背景概述

Adult_train_cfda_instbasedlm_22数据集是一个专注于成人收入预测与分类任务的结构化数据集，由匿名研究团队于2022年构建并发布。该数据集以美国人口普查数据为基础，通过指令式（instruction-based）学习框架重构，旨在探索机器学习模型在敏感社会属性（如性别、收入等级）预测中的表现与偏差问题。其核心研究问题聚焦于如何通过改进的数据表示方法，降低模型在人口统计学分类任务中的歧视性倾向，同时保持预测准确性。该数据集为公平机器学习领域提供了重要的基准测试平台，推动了因果公平性分析与反事实数据增强技术的交叉研究。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，收入预测任务中隐含的性别、种族等敏感属性与收入水平的复杂关联性，使得模型容易学习到具有社会偏见的模式，如何构建公平且鲁棒的预测框架成为核心难题。在数据构建过程中，原始人口普查数据存在显著的不平衡分布问题，研究者需通过反事实数据增强技术生成合成样本，这一过程涉及复杂的因果图建模与潜在结果模拟，对数据生成的真实性与多样性控制提出了极高要求。此外，指令式学习框架的引入虽提升了模型可解释性，但如何设计无偏见的自然语言指令模板仍需深入探索。

常用场景

经典使用场景

在社会科学与计算语言学交叉领域，Adult_train_cfda_instbasedlm_22数据集凭借其结构化指令-输出对特征，成为研究社会人口属性（如性别）与语言生成模式关联性的重要基准。研究者常利用其包含的24,812条标注实例，探索指令微调语言模型在人口统计学变量影响下的表现差异，特别是在职业描述、收入预测等敏感社会议题的文本生成任务中展现显著价值。

解决学术问题

该数据集有效解决了社会偏见量化研究的核心挑战——缺乏高质量标注的对话式数据。通过提供性别标注的指令-响应样本，学术界首次能够系统分析语言模型在职业建议、财务决策等场景中潜在的性别刻板印象，为构建公平性评估框架提供了实证基础，推动了负责任AI领域的方法论创新。

衍生相关工作

基于该数据集衍生的经典研究包括《社会语境下的语言模型公平性度量》，该工作提出了基于指令簇的偏见评估新范式。后续研究进一步扩展了人口属性维度，构建了包含种族、年龄等特征的增强版本ADULT-FairBench，推动了多维度AI伦理评估标准的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集