fairness-pruning-pairs-en
收藏Hugging Face2026-02-26 更新2026-02-27 收录
下载链接:
https://huggingface.co/datasets/oopere/fairness-pruning-pairs-en
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'公平性剪枝提示对(英文版)',专为大型语言模型中的神经元偏置映射而设计。它包含75对提示文本,每对文本仅在单一人口统计属性上存在差异(如种族、性别、年龄等),覆盖6个偏置类别和5种社会场景。核心用途是通过对比模型对成对提示的激活差异,识别编码人口统计偏见的MLP神经元,为公平性剪枝研究提供数据支持。数据集严格遵循Llama-3.2-1B分词器的等长令牌约束,每个记录包含8个字段:唯一ID、偏置类别、多数/少数属性对、令牌计数、模板ID、社会场景及两个对应提示文本。该数据集与BBQ基准测试对齐,适用于自然语言推理、偏置分析和模型剪枝等研究场景,采用Apache 2.0许可协议。
创建时间:
2026-02-23
搜集汇总
数据集介绍
构建方式
在自然语言处理领域,针对大型语言模型的社会偏见问题,fairness-pruning-pairs-en数据集通过精心设计的提示对构建而成。该数据集严格遵循Llama-3.2-1B分词器的长度约束,确保每对提示在分词后具有完全相同的令牌数量,以便进行逐位置的激活差异分析。其构建过程涉及从六个社会偏见类别中选取十五组属性对,并嵌入五个不同的社会语境模板,最终生成七十五对结构一致的提示文本,为神经元层面的偏见定位提供了精确的对比基础。
特点
该数据集的核心特征在于其系统性的对比结构,每对提示仅在单一人口统计学属性上存在差异,覆盖了年龄、性别、种族、宗教等六个关键偏见维度。每个属性对均经过严格的令牌长度验证,确保了激活分析的可比性。数据集设计融合了BBQ基准的范畴体系,并提供了从劳动市场到医疗健康等多种社会语境,使得研究者能够深入探究模型在不同场景下对敏感属性的差异化响应模式。
使用方法
研究者可通过Hugging Face的datasets库直接加载数据集的特定子集,例如种族或性别类别。结合OptiPFair等分析工具,能够提取模型在处理成对提示时的激活状态,计算神经元层面的差异分数。该数据集支持均值差异可视化、热图分析和主成分分析等多种方法,用以识别编码偏见的候选神经元,为后续的公平性剪枝干预提供明确的靶点。
背景与挑战
背景概述
随着大型语言模型在各类社会应用中日益普及,其内部隐含的社会偏见问题逐渐成为人工智能伦理领域的研究焦点。Fairness Pruning Prompt Pairs (English) 数据集应运而生,隶属于Fairness Pruning研究项目,由研究人员Pere Martra等人构建,旨在通过神经元激活差异分析,精准定位编码人口统计学偏见的MLP神经元。该数据集紧密对接BBQ基准,涵盖年龄、性别、种族等六大偏见类别,通过精心设计的提示词对,为基于激活引导的模型剪枝提供了关键数据基础,推动了可解释性偏见缓解方法的发展。
当前挑战
该数据集致力于解决大型语言模型中社会偏见检测与缓解的核心挑战,其首要难点在于如何从高维、非线性的神经元激活中分离出与特定人口属性相关的偏见信号,这要求设计出在语义和句法上高度一致、仅单一属性不同的提示对。在构建过程中,研究者面临严格的技术约束:为确保激活能够进行逐位置比较,每一对提示在Llama-3.2-1B分词器下必须产生完全相同的令牌数量,这一硬性要求导致大量候选属性对因令牌长度不匹配而被舍弃,尤其在涉及多令牌词汇的类别(如宗教、社会经济地位)中,构建工作变得尤为复杂和精细。
常用场景
经典使用场景
在大型语言模型(LLM)的公平性研究领域,Fairness Pruning Prompt Pairs-en 数据集被经典地用于神经元层面的偏见映射分析。研究者通过加载该数据集中的提示对,例如种族或性别属性仅有一词之差的成对句子,输入至如Llama-3.2-1B等模型中,并捕获其前向传播过程中的激活值。通过计算同一模型层中对应神经元在成对提示上的激活差异,能够精确定位那些对人口统计学属性做出差异化响应的特定神经元,从而为后续的公平性剪枝提供直接的候选目标。
解决学术问题
该数据集致力于解决大型语言模型中隐含的社会偏见难以在神经元层面被识别与量化的核心学术问题。通过提供严格保证分词长度一致的成对提示,它使得研究者能够进行位置对位置的激活值比较,从而将抽象的偏见概念转化为具体的神经元激活差异信号。这一方法突破了传统基于模型输出或嵌入相似度的偏见评估局限,为理解偏见在模型内部如何编码与传播提供了可解释的微观视角,推动了模型可解释性与公平性研究的深度融合。
衍生相关工作
围绕该数据集,已衍生出一系列专注于模型内部偏见分析与缓解的经典研究工作。其核心关联项目“Fairness Pruning”提出了基于激活引导的MLP宽度剪枝框架。同时,配套开发的OptiPFair工具库集成了差异激活可视化、PCA分析和交互式偏见分析器等功能,形成了从分析到干预的完整工具链。该数据集的设计与BBQ、EsBBQ等偏见评测基准对齐,确保了其发现的神经元模式与外部评测结果具有一致性,从而促进了基于激活的内部分析与基于输出的外部评测两种研究范式的交叉验证与协同发展。
以上内容由遇见数据集搜集并总结生成



