five

GenderPair

收藏
github2024-05-10 更新2024-05-31 收录
下载链接:
https://github.com/kstanghere/GenderCARE-ccs24
下载链接
链接失效反馈
官方服务:
资源简介:
GenderPair是用于评估大型语言模型中性别偏见的基准数据集。

GenderPair is a benchmark dataset for evaluating gender bias in large language models.
创建时间:
2024-05-08
原始信息汇总

数据集概述

数据集名称

GenderCARE

数据集内容

主要组成部分

  1. GenderPair: 用于评估大型语言模型(LLMs)中性别偏见的基准。
  2. 评估代码: 用于使用GenderPair、StereoSet、Winoqueer和BOLD等基准评估LLMs中的性别偏见。
  3. 减少性别偏见的代码和数据集: 使用提出的去偏策略。
  4. 生成关键结果的脚本: 包括困惑度概率差异、偏见对比例、毒性和尊重度等指标。

目录结构

  • Code/: 包含评估偏见、运行去偏和生成表格/图形的Python脚本。
    • Assess_Gender_Bias/: 评估GenderPair、StereoSet、Winoqueer和BOLD上的偏见。
    • Reduce_Gender_Bias/: 使用去偏策略微调模型。
    • EEC_Modify/: 评估轻微修改提示上的困惑度概率差异。
  • Datasets/: 包含实验中使用的偏见评估数据集。
    • Assess_Gender_Bias/: 包含GenderPair、StereoSet、Winoqueer和BOLD的子目录。
  • Models/: 包含去偏前后模型检查点。
    • base_models/: 原始预训练模型,如Meta Llama2-chat。
    • ft_models/: 微调后的去偏模型版本。

数据集使用

环境设置

  • 测试环境:Linux,4 x NVIDIA A6000 GPUs,Python 3.10.13,CUDA 11.7,PyTorch 2.0.1,HuggingFace Transformers 4.31.0。
  • 安装步骤:安装CUDA、PyTorch、Python等,并使用pip安装其他依赖。

预训练模型下载

  • 使用Llama2-13B模型作为示例。
  • 可通过Hugging Face官方仓库或备份下载。

评估性别偏见

  • 困惑度概率差异: 在Code/EEC_Modify/目录下运行评估脚本。
  • GenderPair结果: 在Code/Assess_Gender_Bias/Our_Benchmark_GenderPair/目录下生成模型响应并评估偏见指标。

减少性别偏见

  • 去偏策略: 在Code/Reduce_Gender_Bias/Our_Debiasing_Strategy/目录下运行去偏脚本。
  • 去偏后评估: 使用去偏模型检查点在GenderPair和其他基准上验证偏见减少。

数据集应用

  • 用于评估和减少大型语言模型中的性别偏见,提供全面的评估和去偏方法。
搜集汇总
数据集介绍
main_image_url
构建方式
GenderPair数据集的构建基于对性别偏见的全面评估需求,旨在通过一系列精心设计的提示(prompts)来检测大型语言模型(LLMs)中的性别偏见。该数据集包含了多个性别群体的提示,通过这些提示生成的模型响应,进一步用于计算性别偏见的关键指标,如偏见对比例(Bias-Pair Ratio)、毒性(Toxicity)和关注度(Regard)。数据集的构建过程严格遵循科学实验的标准,确保每个提示的性别敏感性和语义一致性,从而为后续的偏见评估提供可靠的基础。
特点
GenderPair数据集的主要特点在于其针对性别偏见的全面性和系统性。首先,数据集涵盖了多个性别群体的提示,确保了评估的广泛性。其次,数据集结合了多种偏见评估指标,如偏见对比例、毒性和关注度,提供了多维度的偏见量化方法。此外,数据集的设计还考虑了语义一致性,确保了提示的修改不会影响其基本含义,从而更准确地反映模型对性别差异的敏感性。
使用方法
使用GenderPair数据集进行性别偏见评估时,首先需要下载并配置相关代码和模型。用户可以通过运行评估脚本,生成模型对不同性别群体提示的响应,并进一步计算偏见对比例、毒性和关注度等指标。具体操作包括导航到相应的代码目录,运行评估脚本,并根据生成的响应文件计算各项指标。此外,用户还可以通过微调模型来减少性别偏见,并使用微调后的模型重新评估偏见指标,以验证偏见减少的效果。
背景与挑战
背景概述
GenderPair数据集由Kunsheng Tang、Wenbo Zhou和Jie Zhang等人于2024年提出,作为其论文《GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models》的核心组成部分。该数据集旨在评估和减少大型语言模型(LLMs)中的性别偏见,通过提供创新的评估标准、方法、减少技术和评估指标,推动LLMs在性别公平性方面的进展。GenderPair作为评估性别偏见的基准,为研究者提供了一个系统化的工具,以量化和缓解LLMs中的性别偏见问题,从而在人工智能领域中促进公平性和包容性。
当前挑战
GenderPair数据集面临的挑战主要集中在两个方面。首先,评估和量化性别偏见本身是一个复杂的过程,涉及到对语言模型输出的多维度分析,包括偏见配对比率、毒性和关注度等指标。其次,构建和维护这样一个数据集需要大量的资源和专业知识,尤其是在处理敏感的性别相关话题时,确保数据的准确性和公正性至关重要。此外,如何有效地减少LLMs中的性别偏见,同时保持模型的性能和泛化能力,也是该数据集面临的一个重要挑战。
常用场景
经典使用场景
GenderPair数据集的经典使用场景主要集中在评估和量化大型语言模型(LLMs)中的性别偏见。通过该数据集,研究者能够系统地分析模型在不同性别相关语境下的表现,特别是通过计算偏见对比例(Bias-Pair Ratio)、毒性(Toxicity)和关注度(Regard)等指标,从而全面评估模型在性别偏见方面的表现。
解决学术问题
GenderPair数据集解决了在大型语言模型中性别偏见量化和评估的学术难题。通过提供一个系统化的基准,研究者能够更精确地识别和测量模型中的性别偏见,从而推动相关领域的公平性和公正性研究。这一数据集的引入为学术界提供了一个强有力的工具,用以评估和改进模型的公平性,具有重要的理论和实践意义。
衍生相关工作
基于GenderPair数据集,许多相关研究工作得以展开,包括开发新的偏见评估方法、设计更有效的去偏策略以及构建更加公平的语言模型。例如,研究者们提出了多种去偏算法,并通过该数据集验证其有效性。此外,该数据集还激发了对性别偏见更深层次的理论探讨,推动了自然语言处理领域在公平性和伦理方面的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作