HumanCentricART/P-AT
收藏Hugging Face2024-02-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HumanCentricART/P-AT
下载链接
链接失效反馈官方服务:
资源简介:
Prompt Association Test (P-AT) 是一个用于检测Instruction-Following Language Models (IFLMs)中社会偏见的资源。P-AT基于WEAT方法,并扩展了测量社会偏见的概念,适用于IFLMs。该数据集包含2310个问题,旨在帮助检测IFLMs在多个维度上的偏见。
Prompt Association Test (P-AT) 是一个用于检测Instruction-Following Language Models (IFLMs)中社会偏见的资源。P-AT基于WEAT方法,并扩展了测量社会偏见的概念,适用于IFLMs。该数据集包含2310个问题,旨在帮助检测IFLMs在多个维度上的偏见。
提供机构:
HumanCentricART
原始信息汇总
数据集概述
数据集信息
- 许可证: GPL-3.0
- 任务类别: 文本分类
- 语言: 英语
- 标签: 刻板印象检测, 偏见评估
数据集描述
- 名称: Prompt Association Test (P-AT)
- 来源: 基于WEAT (Caliskan et al., 2017) 的扩展
- 目的: 检测指令遵循语言模型(IFLMs)中的社会偏见
- 内容: 包含2310个问题,用于多维度检测IFLMs中的偏见
引用信息
- 论文标题: Measuring bias in Instruction-Following models with P-AT
- 作者: Onorati, Dario; Ruzzetti, Elena Sofia; Venditti, Davide; Ranaldi, Leonardo; Zanzotto, Fabio Massimo
- 会议: Findings of the Association for Computational Linguistics: EMNLP 2023
- 页码: 8006--8034
- 摘要: 本文提出了Prompt Association Test (P-AT),一个用于测试IFLMs中社会偏见的新资源。P-AT源自WEAT,并将其扩展到IFLMs中。该资源包含2310个提示,用于检测性别和种族偏见,并鼓励创建更公平的IFLMs。



