fairness-pruning-pairs-es
收藏Hugging Face2026-02-26 更新2026-02-27 收录
下载链接:
https://huggingface.co/datasets/oopere/fairness-pruning-pairs-es
下载链接
链接失效反馈官方服务:
资源简介:
Fairness Pruning Prompt Pairs (Spanish) 是一个用于大型语言模型(LLMs)中神经元偏差映射的提示对数据集,专注于西班牙语的偏差模式识别。该数据集旨在通过差异激活分析,识别哪些MLP神经元编码了人口统计偏差,是Fairness Pruning研究项目的一部分,该项目研究通过激活引导的MLP宽度修剪来减轻偏差。
数据集包含100个提示对,覆盖5个偏差类别(年龄、性别、外貌、种族民族、宗教)和5种社会情境(劳动、机构、医疗、社交、教育)。每个提示对除了一个人口统计属性外完全相同,且经过验证在Llama-3.2-1B分词器中具有相同的token数量,这是进行逐位置激活比较的硬性要求。
数据集包含以下字段:唯一标识符(id)、偏差类别(category)、多数/非刻板印象属性(attribute_1)、少数/刻板印象属性(attribute_2)、token数量(token_count)、模板标识符(template_id)、社会情境(context)以及两个提示文本(prompt_1和prompt_2)。
该数据集适用于自然语言推理任务,特别是偏差检测和公平性研究,可用于激活分析和模型修剪。
创建时间:
2026-02-23
搜集汇总
数据集介绍
构建方式
在大型语言模型公平性研究领域,西班牙语公平性剪枝提示对数据集的构建遵循了严谨的对比设计原则。其核心在于创建成对的提示文本,这些文本仅在单一人口统计学属性上存在差异,例如将“blanco”替换为“negro”。为确保后续激活分析的可行性,所有属性对均需通过Llama-3.2-1B分词器的严格验证,确保两个提示生成的令牌数量完全一致,这是进行逐位置激活差分比较的硬性约束。数据覆盖了年龄、性别、外貌、种族与宗教五大偏见类别,每个类别下又细分为劳动、医疗、教育等五种社会情境,最终通过五个标准化模板生成了共计100对高质量的对比样本。
特点
该数据集的一个显著特点是其与西班牙语偏见基准EsBBQ的深度对齐,确保了所研究的偏见类别在西班牙语语境下具有坚实的文献基础。数据集的结构设计精妙,不仅明确区分了多数群体与非刻板印象属性,还充分考虑了西班牙语的语法特性,例如在性别类别中,验证单元是完整的、符合语法性别一致的名词短语。此外,数据集的规模虽小但高度聚焦,每个样本都承载着明确的对比信息,旨在精准捕捉模型在处理不同人口属性时产生的内部激活差异,为定位编码偏见的特定神经元提供了清晰的路标。
使用方法
该数据集主要用于支持基于激活分析的公平性剪枝研究。研究者可借助OptiPFair等专用工具库,加载特定偏见类别的数据子集,并将其输入目标语言模型以获取前向传播的激活值。通过计算成对提示所对应激活值的差异,可以识别出对人口属性变化反应显著的神经元,这些神经元被视为公平性剪枝的候选对象。数据集配套提供了丰富的可视化分析功能,包括平均差异条形图、神经元激活热图和主成分分析图,帮助研究者直观理解偏见在模型不同层级的编码与传播模式,从而为开发更公平的模型压缩策略提供数据支持。
背景与挑战
背景概述
Fairness Pruning Prompt Pairs (Spanish) 数据集诞生于2026年,是Pere Martra在“公平性剪枝”研究项目中的核心成果,该项目隶属于西班牙梅嫩德斯·佩拉耶国际大学。该数据集旨在解决大型语言模型在西班牙语语境中存在的系统性人口统计偏见问题,其核心研究焦点在于通过差分激活分析,精准定位模型中编码偏见的MLP神经元,从而为基于激活引导的模型宽度剪枝提供数据基础。作为英语版本数据集的西班牙语伴侣,它扩展了跨语言偏见分析的边界,并与EsBBQ基准紧密对齐,为量化评估西班牙语模型的社会偏见提供了关键工具,推动了可解释人工智能与算法公平性领域的交叉研究。
当前挑战
该数据集致力于应对西班牙语大型语言模型中人口统计偏见检测与缓解的挑战。其核心在于解决模型在年龄、性别、种族、宗教等维度上可能隐含的歧视性表征问题,这要求对模型内部激活模式进行细粒度、可解释的分析。在构建过程中,研究者面临严峻的技术约束:为确保逐位置激活比较的可行性,数据集中每一对提示必须在使用Llama-3.2-1B分词器时产生完全相同的令牌数量。这一硬性限制导致部分候选属性对(如社会经济地位中的“rico”与“pobre”)因令牌数不匹配而被舍弃。此外,西班牙语的语法性别一致性要求将完整名词短语(如“el médico / la médica”)而非孤立单词作为验证单元,这增加了数据构造的复杂性,并需确保提示符合自然语言分布,避免引入非语法结构干扰分析。
常用场景
经典使用场景
在自然语言处理领域,针对大语言模型中潜在偏见的检测与缓解已成为一项关键研究课题。Fairness Pruning Prompt Pairs (Spanish) 数据集专为西班牙语环境设计,其经典使用场景在于通过差分激活分析,精准定位编码人口统计学偏见的MLP神经元。研究者利用该数据集中的提示对,这些提示仅在单一人口属性上存在差异,通过对比模型在处理这些提示时的激活模式,能够识别出对特定属性敏感的关键神经元,为后续的公平性剪枝提供数据基础。
实际应用
在实际应用中,该数据集是构建西班牙语大语言模型偏见审计与优化工具链的重要组成部分。开发者和研究人员可以将其集成到如OptiPFair这样的分析库中,对部署前的模型进行系统性偏见扫描,识别出需要干预的特定神经元层。这有助于科技公司在开发面向西班牙语用户的聊天机器人、内容生成系统或决策支持工具时,主动降低模型输出中的歧视性内容,提升产品的社会责任感和用户体验。
衍生相关工作
该数据集直接衍生并支撑了‘公平性剪枝’这一系列研究工作,其核心是通过激活分析指导的MLP宽度剪枝来缓解模型偏见。相关经典工作包括开发了配套的OptiPFair偏见分析库和交互式可视化工具,使偏见神经元定位过程更加直观。同时,该数据集与EsBBQ基准测试紧密对齐,确保了其发现的偏见模式与西班牙语定量评估标准的一致性,共同构成了一个从偏见检测、分析到干预的完整研究生态。
以上内容由遇见数据集搜集并总结生成



