AnimaLab/bias-test-gpt-biases
收藏Hugging Face2026-05-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AnimaLab/bias-test-gpt-biases
下载链接
链接失效反馈官方服务:
资源简介:
BiasTestGPT-sentences数据集是一个用于测试开源预训练语言模型中偏见的句子数据集,使用ChatGPT和其他生成语言模型生成。数据集包含两种类型的偏见规范:预定义偏见和自定义偏见。预定义偏见来源于先前的研究工作,而自定义偏见则通过用户与HuggingFace工具的交互动态添加。数据集的结构包括JSON文件,每个文件包含多个数据字段,如偏见名称、社会群体、属性、模板、来源、URL、类型和创建日期等。数据集的规模包括15个预定义偏见和4个以上自定义偏见。
Dataset of sentences for bias testing in open-sourced Pretrained Language Models generated using ChatGPT and other generative Language Models. This dataset is used and actively populated by the BiasTestGPT HuggingFace Tool. The dataset consists of two types of bias specifications: predefined biases obtained from prior work and custom biases defined by users through the HuggingFace Tool. Each bias specification contains several data fields defining the bias itself and additional metadata about the bias specification origins. The dataset currently contains 15 predefined bias specifications and 4 or more custom-defined bias specifications, with the number of custom-defined bias specifications constantly growing as users interact with the tool.
提供机构:
AnimaLab
原始信息汇总
数据集卡片 - BiasTestGPT: Bias Specifications
数据集概述
该数据集包含用于测试开源预训练语言模型中偏见的句子,这些句子由ChatGPT和其他生成式语言模型生成。数据集由BiasTestGPT HuggingFace工具使用并持续更新。
数据结构
数据实例
数据集实例由包含偏见规范的JSON文件组成。有两种类型的规范保存在不同的文件夹中:
- predefined biases:预定义的偏见规范,来自先前的工作,如Caliskan17和Kurita19。
- custom biases:由HuggingFace工具的用户定义的偏见。这些是根据用户与工具的交互动态添加到仓库中的。
数据字段
每个偏见规范包含定义偏见本身的数据字段,以及关于偏见规范来源的附加元数据。
偏见规范中的数据字段描述
- name:一个
string特征,偏见的简短描述性名称。 - social_groups:一个
dictionary特征,包含两个或更多社会群体的规范。- Male_Names, Female_Names:偏见特定的键,定义比较的社会群体。每个键的值是一个定义特定社会群体的术语列表。
- attributes:一个
dictionary特征,包含两个理想对立属性的规范,用于测试社会群体的比较。- Career, Family:偏见特定的键,定义对立属性。每个键的值是一个定义属性的术语列表。
- templates:一个
list特征,先前工作中使用的遗留测试句子模板。用于基线偏见测量。 - source:一个
string特征,偏见规范的来源,通常是先前的工作。 - url:一个
string特征,提供偏见规范的研究论文的链接。 - type:一个
string特征,指定偏见是由先前的工作预定义的还是使用我们的HuggingFace工具定义的。 - created:偏见规范添加到仓库的日期。在从我们的工具添加时自动生成。
偏见规范 - 数据分割
仓库包含15个基于先前工作的预定义偏见规范和4个或更多的自定义定义偏见规范。我们注意到,自定义定义的偏见规范数量不断增长,因为它由与HuggingFace工具的交互填充。
| 类型 | 含义 | 大小 |
|---|---|---|
| predefined | 在先前工作中提供了规范的偏见 | 15 |
| custom | 根据与BiasTestGPT工具的交互添加到仓库的偏见 | 4+ |
搜集汇总
数据集介绍

构建方式
该数据集名为BiasTestGPT-sentences,专为开源预训练语言模型的偏见测试而设计,其内容由ChatGPT等生成式语言模型自动产生。构建方式融合了既有的学术成果与用户定制化输入:一方面,从Caliskan'17、Kurita'19等经典文献中提取了15项预定义偏见规范,涵盖性别与职业等社会维度;另一方面,通过配套的HuggingFace工具,允许用户动态定义并上传自定义偏见规范,此类条目正持续增加。每个规范以JSON格式存储,包含社会群体、属性、模板及来源元数据,形成结构化且可扩展的偏见测试基础。
特点
该数据集的核心特点在于其双重来源机制带来的灵活性与可成长性。预定义偏见部分基于权威学术研究,确保了测试的基准可靠性与领域覆盖面;自定义部分则借助交互式工具,允许研究者根据特定场景或新近发现的偏差模式即时扩充测试内容,使数据集保持动态演化。此外,数据字段设计精良,通过社会群体(如男性与女性姓名)与对立属性(如职业与家庭)的配对,并结合句式模板,能够系统性地探测模型在不同语义方向上的潜在偏见,兼具理论深度与应用广度。
使用方法
使用者可借助BiasTestGPT HuggingFace工具直接加载该数据集,开展偏见评估。具体而言,数据集中的每条偏见规范定义了待比较的社会群体与属性列表,以及用于生成测试句的模板。通过将群体词汇与属性词汇嵌入模板,即可批量构造测试句子,输入目标预训练语言模型计算语义关联度,从而量化偏见程度。目前,预定义规范有15项可供直接使用,自定义规范则随社区贡献不断增多,适用于模型发布前的公平性审核、偏见监测工具的研发,或跨模型偏见的对比分析等场景。
背景与挑战
背景概述
在自然语言处理领域,预训练语言模型(PLMs)的广泛应用带来了对公平性与伦理性的深切关注,尤其是在性别、种族等社会群体偏见的潜在传递问题上。为此,AnimaLab研究团队于2023年构建了BiasTestGPT数据集,旨在系统性地测试开源PLMs中的偏见现象。该数据集融合了来自Caliskan’17和Kurita’19等经典工作的预定义偏见规范,并创新性地引入用户自定义机制,通过HuggingFace交互工具动态扩展内容。其核心研究问题聚焦于如何量化并验证语言模型在不同社会群体与属性间的语义关联偏差,从而为模型评估与偏见过滤提供标准化基准。该数据集凭借其规范化结构与动态更新能力,已成为偏见检测领域的重要资源,推动了对语言模型社会影响的深入理解与治理。
当前挑战
该数据集面临的核心挑战包括:首先,在领域问题层面,它需应对预训练语言模型中隐藏的刻板印象与关联偏差,例如职业与性别、家庭与性别之间的非公平映射,这类偏差往往在模型的无监督学习中悄然固化,难以通过传统评估手段全面暴露。其次,在构建过程中,预定义偏差规范的来源多样且语境迥异,如何确保来自不同经典工作的规范在统一框架下兼容并反映当代语言多样性是一大难题;同时,用户自定义偏差的引入虽增强了数据集的灵活性与覆盖面,但其质量与客观性难以保障,可能引入新的噪声或主观偏好。此外,模板化测试语句的局限性在于无法捕捉复杂语境下的偏见表现,而对动态增长数据的持续维护与标注一致性同样构成了显著挑战。
常用场景
经典使用场景
作为评估预训练语言模型中社会偏见的核心基准,BiasTestGPT数据集通过结构化偏见规范为模型公平性测试提供了标准化框架。该数据集包含来自经典研究(如Caliskan'17和Kurita'19)的15个预定义偏见规范,涵盖性别与职业、种族与特质等社会敏感维度,支持研究者系统性地检验语言模型在任意给定语境下是否无意识地重现或放大了现实世界中的偏见模式。
解决学术问题
该数据集从根本上回应了人工智能伦理研究中的关键命题:如何量化与定性预训练语言模型内嵌的社会偏见。经典方法如词嵌入关联测试(WEAT)依赖静态词汇表征,而BiasTestGPT将偏见检测扩展至句子级别的语境化生成,解决了传统方法难以捕捉上下文敏感偏见的局限,为构建去偏见化语言模型提供了可重复的实验基线和评估指标,推动了公平性评估从原则性讨论走向实证化研究。
衍生相关工作
基于BiasTestGPT数据集,研究者已开展了多项开拓性工作,包括提出基于模板填充的自动偏见生成框架、构建跨模型(如GPT-3、BERT、RoBERTa)的偏见对比基准,以及开发用于解释模型偏见归因词源的可视化工具。这些衍生研究不仅丰富了公平性评估的方法论体系,还推动了诸如对抗性去偏训练、提示工程去偏等实用技术的涌现,使得该数据集成为连接偏见检测理论与模型改进实践的桥梁性资源。
以上内容由遇见数据集搜集并总结生成



