Winogender

github2024-05-20 更新2024-05-31 收录

下载链接：

https://github.com/richhh520/Awesome_Bias_and_Fairness_Datasets_and_Benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

揭示模型根据代词性别将代词识别为与特定职业相关的情况

Revealing the model's ability to identify pronouns as associated with specific professions based on gender.

创建时间：

2024-05-20

原始信息汇总

数据集概述

1. Winogender

数据量: 720
年份: 2018
描述: 揭示模型根据代词性别将代词识别为与特定职业相关的情况
类别/任务: Masked Tokens
目标社会群体: gender
输入类型: Counterfactual input
类别指标: Probability-Based
论文: Gender Bias in Coreference Resolution
数据集链接: Link

2. Winobias

数据量: 3160
年份: 2018
描述: 未提供
类别/任务: Masked Tokens
目标社会群体: gender
输入类型: Counterfactual input
类别指标: Probability-Based
论文: Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods
数据集链接: link

3. GAP

数据量: 8908
年份: 2018
描述: 一个性别平衡的标记语料库，包含 8,908 个模糊代词-名称对
类别/任务: Masked Tokens
目标社会群体: gender
输入类型: Counterfactual input
类别指标: Probability-Based
论文: Mind the GAP: A Balanced Corpus of Gendered Ambiguou
数据集链接: link

4. BUG

数据量: 109419
年份: 2021
描述: 在来自三个领域的语料库获取包含刻板和非刻板性别角色分配的语法模式，从而产生了第一个包含 108K 不同现实世界英语的大规模性别偏见数据集句子。
类别/任务: Masked Tokens
目标社会群体: gender
输入类型: Counterfactual input
类别指标: Probability-Based
论文: Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation
数据集链接: link

5. StereoSet

数据量: 16995
年份: 2021
描述: 对于每个social group编写刻板印象、反刻板印象和不相关的属性词。提供包含目标术语的上下文填空句，其中的空白可以用刻板印象术语或反刻板印象术语来填充，但不能用不相关的术语来填充。
类别/任务: Masked Tokens
目标社会群体: gender, race, religion, others
输入类型: Counterfactual input
类别指标: Probability-Based
论文: StereoSet: Measuring stereotypical bias in pretrained language models
数据集链接: link

6. BEC-Pro

数据量: 5400
年份: 2020
描述: 未提供
类别/任务: Masked Tokens
目标社会群体: gender
输入类型: Counterfactual input
类别指标: Probability-Based
论文: Unmasking Contextual Stereotypes: Measuring and Mitigating BERTs Gender Bias
数据集链接: link

7. WinoQueer

数据量: 包含 45540 个句子对
年份: 2023
描述: 根据 CrowS-Pairs配对句子偏差检测构建。模版样例: I don’t like <name> because they are <identity>.
类别/任务: Unmasked Sentences
目标社会群体: Sexual-Orientation
输入类型: Counterfactual input
类别指标: Probability-Based
论文: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models
数据集链接: link

8. CrowS-Pairs

数据量: 1508
年份: 2020
描述: 一组数据包含两个句子：对优势群体的刻板印象和对弱势群体的反刻板印象，它们之间唯一变化的单词是那些标识所谈论的群体的单词。用于测量模型相对于反刻板印象的句子倾向于刻板印象句子的程度。
类别/任务: Unmasked Sentences
目标社会群体: Age, Disability, Gender, Nationality, Physical Appearance, Race, Religion, Sexual-Orientation, Other
输入类型: Counterfactual input
类别指标: Pseudo-Log-Likelihood
论文: 未提供
数据集链接: link

9. RedditBias

数据量: 11873
年份: 2021
描述: 人类标注者对检索到的评论和对应的目标术语上下文进行标注，判断是否表达了负面的刻板印象偏见或是否存在包含偏见的短语。
类别/任务: Unmasked Sentences
目标社会群体: Gender, Race, Religion, Sexual-Orientation
输入类型: Counterfactual input
类别指标: Classifier
论文: RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models
数据集链接: link

10. RealToxicityPrompts

数据量: 100,100
年份: 2020
描述: 一个由 10 万个自然发生的句子级prompt组成的数据集，这些prompt源自大量英语网络文本语料库
类别/任务: Sentence Completions
目标社会群体: Other
输入类型: Prompt
类别指标: Classifier 与来自广泛使用的毒性分类器的毒性分数配对
论文: RealToxicityPrompts: Evaluating neural toxic degeneration in language models.
数据集链接: link

11. BOLD

数据量: 23,679
年份: 2021
描述: 从维基百科收集英文prompt，抓取相关句子。例如，对于每个职业，选取句子的前 8 个单词中提到该职业的句子，从而截断句子以获得prompt
类别/任务: Sentence Completions
目标社会群体: Gender, Religion, Race, Other
输入类型: Prompt
类别指标: Lexicon 利用情绪、毒性、尊重和情感词典作为衡量标准，计算相关评分衡量模型生成质量。
论文: 未提供
数据集链接: 未提供

12. TrustGPT

数据量: 9*
年份: 2023
描述: 提供评估社会群体之间表现差异的prompt
类别/任务: Sentence Completions
目标社会群体: Gender, Religion, Race
输入类型: Prompt
类别指标: Classifier 采用三个指标来评估 LLM 的偏差：各个组的平均毒性；不同组类型的标准差；从对不同组的毒性分布进行的 Mann-Whitney U 检验获得的 p 值。
论文: TRUSTGPT: A Benchmark for Trustworthy and Responsible Large Language Models
数据集链接: link

13. HONEST

数据量: 420
年份: 2021
描述: 提供 420 个句子句子完成中的负面性别刻板印象。每个句子都遵循基于完形填空的形式，提示中带有性别身份术语，可以通过提示自由文本延续来完成；也可以通过替换单个 [MASK] 令牌来完成完成，这可以与基于masked-token的指标兼容
类别/任务: Sentence Completions
目标社会群体: Gender
输入类型: Prompt
类别指标: Lexicon / masked-token的指标
论文: HONEST: Measuring hurtful sentence completion in language models.
数据集链接: link

14. BiasAsker

数据量: 一个包含11个属性下的841个社会群体的综合社会偏见数据集；以及 12 个类别的 8,110 个社会偏见属性
年份: 2023
描述: BiasAsker 自动生成问题，并采用基于存在测量的新颖方法来识别会话系统中的两种类型的偏差（即绝对偏差和相关偏差）。
类别/任务: Question-Answering
目标社会群体: Ability, Age, Body, Character, Culture, Gender, Profession, Race, Race, Religion, Social, Victim
输入类型: Prompt
类别指标: Classifier
论文: BiasAsker: Measuring the Bias in Conversational AI System
数据集链接: link

15. BBQ

数据量: 58492
年份: 2022
描述: 衡量一个模型何时依赖于刻板印象。问题要求一个社会群体要么符合消极的刻板印象，要么符合积极的刻板印象，其背景是模棱两可的
类别/任务: Question-Answering
目标社会群体: Age, Disability, Gender, Nationality, Physical, Appearance, Race, Religion, Sexual-Orientation, Other
输入类型: Prompt
类别指标: Classifier 准确率评分将准确率分为两部分，即正确答案是否强化或违背了现有的社会偏见，以评估模型的表现是否受到社会偏见在回答问题时的影响。偏见分数引入了一个偏见分数来量化模型以一种有偏见的方式回答问题的程度。偏见分数反映了与社会偏见一致的非UNKNOWN输出的百分比
论文: BBQ: A hand-built bias benchmark for question answering
数据集链接: link

16. UnQover

数据量: 30*
年份: 2020
描述: 使用不加明确描述的问题来揭示下游问答模型中的刻板印象偏见。不加明确描述所以没有支持任一选择的事实背景，从而检测模型是否存在刻板印象，所有答案都表明存在刻板印象偏差
类别/任务: Question-Answering
目标社会群体: Gender, Nationality, Race, Religion
输入类型: Prompt
类别指标: Classifier
论文: UNQOVERing Stereotyping Biases via Underspecified Questions
数据集链接: link

17. Grep-BiasIR

数据量: 118
年份: 2023
描述: 使用与性别相关的118个Query与708个document，其中一半的document与Query有关，另一半无关。从而更加深入的探索了检索系统的性别表示。
类别/任务: Question-Answering
目标社会群体: Gender
输入类型: Prompt
类别指标: NA
论文: Grep-BiasIR: A Dataset for Investigating Gender Representation Bias in Information Retrieval Results
数据集链接: link

18. MGBR

数据量: 未提供
年份: 2024
描述: 在给定由女性、男性和刻板职业单词组成的单词列表的情况下预测女性或男性单词的数量（利用“How many of the following words are definitely female/male?”进行提问)
类别/任务: Question-Answering
目标社会群体: Gender
输入类型: Prompt
类别指标: Distribution
论文: Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting.
数据集链接: 未提供

19. Pythia

数据量: 未提供
年份: 2023
描述: 一个更全面的评估套件
类别/任务: NA
目标社会群体: 未提供
输入类型: NA
类别指标: NA
论文: 未提供
数据集链接: 未提供

搜集汇总

数据集介绍

构建方式

Winogender数据集通过精心设计的720个句子，揭示了语言模型在处理代词时，如何根据代词的性别将其与特定职业相关联的现象。这些句子结构经过特殊设计，以确保代词的性别与职业之间的关联性能够被模型捕捉，从而揭示潜在的性别偏见。

使用方法

使用Winogender数据集时，研究者可以通过分析模型在填充代词时的选择概率，评估模型在性别识别上的偏差。具体而言，可以通过计算模型在不同性别代词选择上的概率分布，来量化模型在性别与职业关联上的偏见程度。此外，该数据集还可以与其他度量方法结合，如基于概率的度量（Probability-Based Metrics），以更全面地评估模型的公平性。

背景与挑战

背景概述

Winogender数据集由Zhiting Fan和Ruiling Xu在2018年创建，隶属于浙江大学的ZJU-AI4H实验室。该数据集旨在揭示语言模型在处理代词时，是否存在基于性别的职业偏见。通过分析模型如何将代词与特定职业关联，Winogender为研究性别偏见在自然语言处理中的表现提供了重要工具。其核心研究问题聚焦于代词消解中的性别偏见，这一问题对语言模型的公平性和准确性具有深远影响。

当前挑战

Winogender数据集面临的挑战主要集中在两个方面。首先，揭示语言模型在代词消解任务中的性别偏见，这一问题涉及复杂的语言结构和潜在的社会偏见，要求模型在处理代词时能够避免性别刻板印象的影响。其次，构建过程中，如何设计有效的反事实输入以检测模型的偏见行为，也是一个技术难题。反事实输入需要精确地模拟现实中的性别偏见场景，同时确保数据的多样性和代表性，以全面评估模型的表现。

常用场景

经典使用场景

Winogender数据集主要用于评估语言模型在处理代词与特定职业关联时的性别偏见。通过提供720个包含代词的句子，模型需要根据上下文判断代词所指代的对象，从而揭示模型是否存在基于性别的职业刻板印象。这一场景在自然语言处理领域中尤为重要，因为它直接关联到语言模型在实际应用中的公平性和准确性。

解决学术问题

Winogender数据集解决了自然语言处理领域中性别偏见的核心问题，即模型是否能够公平地处理不同性别的代词与职业的关联。通过揭示模型在性别识别上的偏见，该数据集为研究者提供了一个标准化的工具，用以评估和改进语言模型的公平性。这不仅推动了学术界对偏见检测和消除的研究，还为实际应用中的公平性提供了理论支持。

实际应用

在实际应用中，Winogender数据集被广泛用于开发和测试能够减少性别偏见的自然语言处理系统。例如，在招聘系统、客户服务聊天机器人和自动文本生成工具中，确保模型不会因为性别偏见而影响决策或生成内容。通过使用该数据集进行模型训练和评估，可以显著提高这些系统在处理性别相关问题时的公平性和准确性。

数据集最近研究