GenderPair

github2024-05-10 更新2024-05-31 收录

下载链接：

https://github.com/kstanghere/GenderCARE-ccs24

下载链接

链接失效反馈

官方服务：

资源简介：

GenderPair是用于评估大型语言模型中性别偏见的基准数据集。

GenderPair is a benchmark dataset for evaluating gender bias in large language models.

创建时间：

2024-05-08

原始信息汇总

数据集概述

数据集名称

GenderCARE

数据集内容

主要组成部分

GenderPair: 用于评估大型语言模型（LLMs）中性别偏见的基准。
评估代码: 用于使用GenderPair、StereoSet、Winoqueer和BOLD等基准评估LLMs中的性别偏见。
减少性别偏见的代码和数据集: 使用提出的去偏策略。
生成关键结果的脚本: 包括困惑度概率差异、偏见对比例、毒性和尊重度等指标。

目录结构

Code/: 包含评估偏见、运行去偏和生成表格/图形的Python脚本。
- Assess_Gender_Bias/: 评估GenderPair、StereoSet、Winoqueer和BOLD上的偏见。
- Reduce_Gender_Bias/: 使用去偏策略微调模型。
- EEC_Modify/: 评估轻微修改提示上的困惑度概率差异。
Datasets/: 包含实验中使用的偏见评估数据集。
- Assess_Gender_Bias/: 包含GenderPair、StereoSet、Winoqueer和BOLD的子目录。
Models/: 包含去偏前后模型检查点。
- base_models/: 原始预训练模型，如Meta Llama2-chat。
- ft_models/: 微调后的去偏模型版本。

数据集使用

环境设置

测试环境：Linux，4 x NVIDIA A6000 GPUs，Python 3.10.13，CUDA 11.7，PyTorch 2.0.1，HuggingFace Transformers 4.31.0。
安装步骤：安装CUDA、PyTorch、Python等，并使用pip安装其他依赖。

预训练模型下载

使用Llama2-13B模型作为示例。
可通过Hugging Face官方仓库或备份下载。

评估性别偏见

困惑度概率差异: 在Code/EEC_Modify/目录下运行评估脚本。
GenderPair结果: 在Code/Assess_Gender_Bias/Our_Benchmark_GenderPair/目录下生成模型响应并评估偏见指标。

减少性别偏见

去偏策略: 在Code/Reduce_Gender_Bias/Our_Debiasing_Strategy/目录下运行去偏脚本。
去偏后评估: 使用去偏模型检查点在GenderPair和其他基准上验证偏见减少。

数据集应用

用于评估和减少大型语言模型中的性别偏见，提供全面的评估和去偏方法。

搜集汇总

数据集介绍

构建方式

GenderPair数据集的构建基于对性别偏见的全面评估需求，旨在通过一系列精心设计的提示（prompts）来检测大型语言模型（LLMs）中的性别偏见。该数据集包含了多个性别群体的提示，通过这些提示生成的模型响应，进一步用于计算性别偏见的关键指标，如偏见对比例（Bias-Pair Ratio）、毒性（Toxicity）和关注度（Regard）。数据集的构建过程严格遵循科学实验的标准，确保每个提示的性别敏感性和语义一致性，从而为后续的偏见评估提供可靠的基础。

特点

GenderPair数据集的主要特点在于其针对性别偏见的全面性和系统性。首先，数据集涵盖了多个性别群体的提示，确保了评估的广泛性。其次，数据集结合了多种偏见评估指标，如偏见对比例、毒性和关注度，提供了多维度的偏见量化方法。此外，数据集的设计还考虑了语义一致性，确保了提示的修改不会影响其基本含义，从而更准确地反映模型对性别差异的敏感性。

使用方法

使用GenderPair数据集进行性别偏见评估时，首先需要下载并配置相关代码和模型。用户可以通过运行评估脚本，生成模型对不同性别群体提示的响应，并进一步计算偏见对比例、毒性和关注度等指标。具体操作包括导航到相应的代码目录，运行评估脚本，并根据生成的响应文件计算各项指标。此外，用户还可以通过微调模型来减少性别偏见，并使用微调后的模型重新评估偏见指标，以验证偏见减少的效果。

背景与挑战

背景概述

GenderPair数据集由Kunsheng Tang、Wenbo Zhou和Jie Zhang等人于2024年提出，作为其论文《GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models》的核心组成部分。该数据集旨在评估和减少大型语言模型（LLMs）中的性别偏见，通过提供创新的评估标准、方法、减少技术和评估指标，推动LLMs在性别公平性方面的进展。GenderPair作为评估性别偏见的基准，为研究者提供了一个系统化的工具，以量化和缓解LLMs中的性别偏见问题，从而在人工智能领域中促进公平性和包容性。

当前挑战

GenderPair数据集面临的挑战主要集中在两个方面。首先，评估和量化性别偏见本身是一个复杂的过程，涉及到对语言模型输出的多维度分析，包括偏见配对比率、毒性和关注度等指标。其次，构建和维护这样一个数据集需要大量的资源和专业知识，尤其是在处理敏感的性别相关话题时，确保数据的准确性和公正性至关重要。此外，如何有效地减少LLMs中的性别偏见，同时保持模型的性能和泛化能力，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

GenderPair数据集的经典使用场景主要集中在评估和量化大型语言模型（LLMs）中的性别偏见。通过该数据集，研究者能够系统地分析模型在不同性别相关语境下的表现，特别是通过计算偏见对比例（Bias-Pair Ratio）、毒性（Toxicity）和关注度（Regard）等指标，从而全面评估模型在性别偏见方面的表现。

解决学术问题

GenderPair数据集解决了在大型语言模型中性别偏见量化和评估的学术难题。通过提供一个系统化的基准，研究者能够更精确地识别和测量模型中的性别偏见，从而推动相关领域的公平性和公正性研究。这一数据集的引入为学术界提供了一个强有力的工具，用以评估和改进模型的公平性，具有重要的理论和实践意义。

衍生相关工作

基于GenderPair数据集，许多相关研究工作得以展开，包括开发新的偏见评估方法、设计更有效的去偏策略以及构建更加公平的语言模型。例如，研究者们提出了多种去偏算法，并通过该数据集验证其有效性。此外，该数据集还激发了对性别偏见更深层次的理论探讨，推动了自然语言处理领域在公平性和伦理方面的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集