Winogender
收藏github2024-05-20 更新2024-05-31 收录
下载链接:
https://github.com/richhh520/Awesome_Bias_and_Fairness_Datasets_and_Benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
揭示模型根据代词性别将代词识别为与特定职业相关的情况
Revealing the model's ability to identify pronouns as associated with specific professions based on gender.
创建时间:
2024-05-20
原始信息汇总
数据集概述
1. Winogender
- 数据量: 720
- 年份: 2018
- 描述: 揭示模型根据代词性别将代词识别为与特定职业相关的情况
- 类别/任务: Masked Tokens
- 目标社会群体: gender
- 输入类型: Counterfactual input
- 类别指标: Probability-Based
- 论文: Gender Bias in Coreference Resolution
- 数据集链接: Link
2. Winobias
- 数据量: 3160
- 年份: 2018
- 描述: 未提供
- 类别/任务: Masked Tokens
- 目标社会群体: gender
- 输入类型: Counterfactual input
- 类别指标: Probability-Based
- 论文: Gender Bias in Coreference Resolution: Evaluation and Debiasing Methods
- 数据集链接: link
3. GAP
- 数据量: 8908
- 年份: 2018
- 描述: 一个性别平衡的标记语料库,包含 8,908 个模糊代词-名称对
- 类别/任务: Masked Tokens
- 目标社会群体: gender
- 输入类型: Counterfactual input
- 类别指标: Probability-Based
- 论文: Mind the GAP: A Balanced Corpus of Gendered Ambiguou
- 数据集链接: link
4. BUG
- 数据量: 109419
- 年份: 2021
- 描述: 在来自三个领域的语料库获取包含刻板和非刻板性别角色分配的语法模式,从而产生了第一个包含 108K 不同现实世界英语的大规模性别偏见数据集句子。
- 类别/任务: Masked Tokens
- 目标社会群体: gender
- 输入类型: Counterfactual input
- 类别指标: Probability-Based
- 论文: Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation
- 数据集链接: link
5. StereoSet
- 数据量: 16995
- 年份: 2021
- 描述: 对于每个social group编写刻板印象、反刻板印象和不相关的属性词。提供包含目标术语的上下文填空句,其中的空白可以用刻板印象术语或反刻板印象术语来填充,但不能用不相关的术语来填充。
- 类别/任务: Masked Tokens
- 目标社会群体: gender, race, religion, others
- 输入类型: Counterfactual input
- 类别指标: Probability-Based
- 论文: StereoSet: Measuring stereotypical bias in pretrained language models
- 数据集链接: link
6. BEC-Pro
- 数据量: 5400
- 年份: 2020
- 描述: 未提供
- 类别/任务: Masked Tokens
- 目标社会群体: gender
- 输入类型: Counterfactual input
- 类别指标: Probability-Based
- 论文: Unmasking Contextual Stereotypes: Measuring and Mitigating BERTs Gender Bias
- 数据集链接: link
7. WinoQueer
- 数据量: 包含 45540 个句子对
- 年份: 2023
- 描述: 根据 CrowS-Pairs配对句子偏差检测构建。模版样例: I don’t like <name> because they are <identity>.
- 类别/任务: Unmasked Sentences
- 目标社会群体: Sexual-Orientation
- 输入类型: Counterfactual input
- 类别指标: Probability-Based
- 论文: WinoQueer: A Community-in-the-Loop Benchmark for Anti-LGBTQ+ Bias in Large Language Models
- 数据集链接: link
8. CrowS-Pairs
- 数据量: 1508
- 年份: 2020
- 描述: 一组数据包含两个句子:对优势群体的刻板印象和对弱势群体的反刻板印象,它们之间唯一变化的单词是那些标识所谈论的群体的单词。用于测量模型相对于反刻板印象的句子倾向于刻板印象句子的程度。
- 类别/任务: Unmasked Sentences
- 目标社会群体: Age, Disability, Gender, Nationality, Physical Appearance, Race, Religion, Sexual-Orientation, Other
- 输入类型: Counterfactual input
- 类别指标: Pseudo-Log-Likelihood
- 论文: 未提供
- 数据集链接: link
9. RedditBias
- 数据量: 11873
- 年份: 2021
- 描述: 人类标注者对检索到的评论和对应的目标术语上下文进行标注,判断是否表达了负面的刻板印象偏见或是否存在包含偏见的短语。
- 类别/任务: Unmasked Sentences
- 目标社会群体: Gender, Race, Religion, Sexual-Orientation
- 输入类型: Counterfactual input
- 类别指标: Classifier
- 论文: RedditBias: A Real-World Resource for Bias Evaluation and Debiasing of Conversational Language Models
- 数据集链接: link
10. RealToxicityPrompts
- 数据量: 100,100
- 年份: 2020
- 描述: 一个由 10 万个自然发生的句子级prompt组成的数据集,这些prompt源自大量英语网络文本语料库
- 类别/任务: Sentence Completions
- 目标社会群体: Other
- 输入类型: Prompt
- 类别指标: Classifier 与来自广泛使用的毒性分类器的毒性分数配对
- 论文: RealToxicityPrompts: Evaluating neural toxic degeneration in language models.
- 数据集链接: link
11. BOLD
- 数据量: 23,679
- 年份: 2021
- 描述: 从维基百科收集英文prompt,抓取相关句子。例如,对于每个职业,选取句子的前 8 个单词中提到该职业的句子,从而截断句子以获得prompt
- 类别/任务: Sentence Completions
- 目标社会群体: Gender, Religion, Race, Other
- 输入类型: Prompt
- 类别指标: Lexicon 利用情绪、毒性、尊重和情感词典作为衡量标准,计算相关评分衡量模型生成质量。
- 论文: 未提供
- 数据集链接: 未提供
12. TrustGPT
- 数据量: 9*
- 年份: 2023
- 描述: 提供评估社会群体之间表现差异的prompt
- 类别/任务: Sentence Completions
- 目标社会群体: Gender, Religion, Race
- 输入类型: Prompt
- 类别指标: Classifier 采用三个指标来评估 LLM 的偏差:各个组的平均毒性;不同组类型的标准差;从对不同组的毒性分布进行的 Mann-Whitney U 检验获得的 p 值。
- 论文: TRUSTGPT: A Benchmark for Trustworthy and Responsible Large Language Models
- 数据集链接: link
13. HONEST
- 数据量: 420
- 年份: 2021
- 描述: 提供 420 个句子句子完成中的负面性别刻板印象。每个句子都遵循基于完形填空的形式,提示中带有性别身份术语,可以通过提示自由文本延续来完成;也可以通过替换单个 [MASK] 令牌来完成完成,这可以与基于masked-token的指标兼容
- 类别/任务: Sentence Completions
- 目标社会群体: Gender
- 输入类型: Prompt
- 类别指标: Lexicon / masked-token的指标
- 论文: HONEST: Measuring hurtful sentence completion in language models.
- 数据集链接: link
14. BiasAsker
- 数据量: 一个包含11个属性下的841个社会群体的综合社会偏见数据集;以及 12 个类别的 8,110 个社会偏见属性
- 年份: 2023
- 描述: BiasAsker 自动生成问题,并采用基于存在测量的新颖方法来识别会话系统中的两种类型的偏差(即绝对偏差和相关偏差)。
- 类别/任务: Question-Answering
- 目标社会群体: Ability, Age, Body, Character, Culture, Gender, Profession, Race, Race, Religion, Social, Victim
- 输入类型: Prompt
- 类别指标: Classifier
- 论文: BiasAsker: Measuring the Bias in Conversational AI System
- 数据集链接: link
15. BBQ
- 数据量: 58492
- 年份: 2022
- 描述: 衡量一个模型何时依赖于刻板印象。问题要求一个社会群体要么符合消极的刻板印象,要么符合积极的刻板印象,其背景是模棱两可的
- 类别/任务: Question-Answering
- 目标社会群体: Age, Disability, Gender, Nationality, Physical, Appearance, Race, Religion, Sexual-Orientation, Other
- 输入类型: Prompt
- 类别指标: Classifier 准确率评分将准确率分为两部分,即正确答案是否强化或违背了现有的社会偏见,以评估模型的表现是否受到社会偏见在回答问题时的影响。偏见分数引入了一个偏见分数来量化模型以一种有偏见的方式回答问题的程度。偏见分数反映了与社会偏见一致的非UNKNOWN输出的百分比
- 论文: BBQ: A hand-built bias benchmark for question answering
- 数据集链接: link
16. UnQover
- 数据量: 30*
- 年份: 2020
- 描述: 使用不加明确描述的问题来揭示下游问答模型中的刻板印象偏见。不加明确描述所以没有支持任一选择的事实背景,从而检测模型是否存在刻板印象,所有答案都表明存在刻板印象偏差
- 类别/任务: Question-Answering
- 目标社会群体: Gender, Nationality, Race, Religion
- 输入类型: Prompt
- 类别指标: Classifier
- 论文: UNQOVERing Stereotyping Biases via Underspecified Questions
- 数据集链接: link
17. Grep-BiasIR
- 数据量: 118
- 年份: 2023
- 描述: 使用与性别相关的118个Query与708个document,其中一半的document与Query有关,另一半无关。从而更加深入的探索了检索系统的性别表示。
- 类别/任务: Question-Answering
- 目标社会群体: Gender
- 输入类型: Prompt
- 类别指标: NA
- 论文: Grep-BiasIR: A Dataset for Investigating Gender Representation Bias in Information Retrieval Results
- 数据集链接: link
18. MGBR
- 数据量: 未提供
- 年份: 2024
- 描述: 在给定由女性、男性和刻板职业单词组成的单词列表的情况下预测女性或男性单词的数量(利用“How many of the following words are definitely female/male?”进行提问)
- 类别/任务: Question-Answering
- 目标社会群体: Gender
- 输入类型: Prompt
- 类别指标: Distribution
- 论文: Evaluating Gender Bias in Large Language Models via Chain-of-Thought Prompting.
- 数据集链接: 未提供
19. Pythia
- 数据量: 未提供
- 年份: 2023
- 描述: 一个更全面的评估套件
- 类别/任务: NA
- 目标社会群体: 未提供
- 输入类型: NA
- 类别指标: NA
- 论文: 未提供
- 数据集链接: 未提供
搜集汇总
数据集介绍

构建方式
Winogender数据集通过精心设计的720个句子,揭示了语言模型在处理代词时,如何根据代词的性别将其与特定职业相关联的现象。这些句子结构经过特殊设计,以确保代词的性别与职业之间的关联性能够被模型捕捉,从而揭示潜在的性别偏见。
使用方法
使用Winogender数据集时,研究者可以通过分析模型在填充代词时的选择概率,评估模型在性别识别上的偏差。具体而言,可以通过计算模型在不同性别代词选择上的概率分布,来量化模型在性别与职业关联上的偏见程度。此外,该数据集还可以与其他度量方法结合,如基于概率的度量(Probability-Based Metrics),以更全面地评估模型的公平性。
背景与挑战
背景概述
Winogender数据集由Zhiting Fan和Ruiling Xu在2018年创建,隶属于浙江大学的ZJU-AI4H实验室。该数据集旨在揭示语言模型在处理代词时,是否存在基于性别的职业偏见。通过分析模型如何将代词与特定职业关联,Winogender为研究性别偏见在自然语言处理中的表现提供了重要工具。其核心研究问题聚焦于代词消解中的性别偏见,这一问题对语言模型的公平性和准确性具有深远影响。
当前挑战
Winogender数据集面临的挑战主要集中在两个方面。首先,揭示语言模型在代词消解任务中的性别偏见,这一问题涉及复杂的语言结构和潜在的社会偏见,要求模型在处理代词时能够避免性别刻板印象的影响。其次,构建过程中,如何设计有效的反事实输入以检测模型的偏见行为,也是一个技术难题。反事实输入需要精确地模拟现实中的性别偏见场景,同时确保数据的多样性和代表性,以全面评估模型的表现。
常用场景
经典使用场景
Winogender数据集主要用于评估语言模型在处理代词与特定职业关联时的性别偏见。通过提供720个包含代词的句子,模型需要根据上下文判断代词所指代的对象,从而揭示模型是否存在基于性别的职业刻板印象。这一场景在自然语言处理领域中尤为重要,因为它直接关联到语言模型在实际应用中的公平性和准确性。
解决学术问题
Winogender数据集解决了自然语言处理领域中性别偏见的核心问题,即模型是否能够公平地处理不同性别的代词与职业的关联。通过揭示模型在性别识别上的偏见,该数据集为研究者提供了一个标准化的工具,用以评估和改进语言模型的公平性。这不仅推动了学术界对偏见检测和消除的研究,还为实际应用中的公平性提供了理论支持。
实际应用
在实际应用中,Winogender数据集被广泛用于开发和测试能够减少性别偏见的自然语言处理系统。例如,在招聘系统、客户服务聊天机器人和自动文本生成工具中,确保模型不会因为性别偏见而影响决策或生成内容。通过使用该数据集进行模型训练和评估,可以显著提高这些系统在处理性别相关问题时的公平性和准确性。
数据集最近研究
最新研究方向
Winogender数据集在自然语言处理领域的前沿研究中,主要聚焦于揭示和缓解语言模型中的性别偏见问题。该数据集通过提供代词与职业之间的关联性测试,帮助研究者评估模型在性别识别上的偏差。近年来,随着公平性和多样性在AI领域的日益重视,Winogender的研究方向逐渐扩展到开发更有效的偏见检测和纠正方法。这些方法不仅限于性别偏见,还涉及种族、宗教等多维度的社会偏见。通过引入反事实输入和概率评估等技术,研究者们致力于构建更加公正和包容的语言模型,这对于提升模型的社会适应性和减少潜在的歧视风险具有重要意义。
以上内容由遇见数据集搜集并总结生成



