facebook/panda
收藏Hugging Face2022-12-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/facebook/panda
下载链接
链接失效反馈官方服务:
资源简介:
PANDA(Perturbation Augmentation NLP DAtaset)数据集包含大约10万对由众包工作者生成的人类扰动文本片段(原始文本和扰动文本)。注释者被要求根据性别、种族和年龄三个维度重写文本片段,同时保持语义不变。文本片段来源于多个文本语料库(如BookCorpus、Wikipedia、ANLI、MNLI、SST、SQuAD)。该数据集可用于训练能够控制文本重写的扰动模型,并评估语言模型在人口统计属性上的鲁棒性。
提供机构:
facebook
原始信息汇总
数据集概述
数据集名称
- 名称:PANDA (Perturbation Augmentation NLP DAtaset)
- 别名:panda
数据集基本信息
- 语言:英语
- 许可证:MIT
- 多语言性:单语
- 大小:100K<n<1M
- 来源:原始数据
- 标签:公平性、NLP、人口统计、多样性、性别、非二元性别、种族、年龄
- 任务类别:token-classification
数据集内容
- 描述:PANDA包含约100K对由人群工作者扰动生成的文本片段(原始、扰动)。注释者根据给定的术语和目标人口统计属性,被指导沿着性别、种族和年龄三个人口统计轴重写文本片段,同时保持语义意义。文本片段来自多种文本语料库(BookCorpus、Wikipedia、ANLI、MNLI、SST、SQuAD)。
- 用途:用于训练能够控制重写文本的扰动模型,以及评估语言模型的人口统计鲁棒性。
数据集结构
- 数据实例:包含原始文本、选定词汇、目标属性、扰动文本。
- 数据字段:
original:源(未扰动)文本片段。selected_word:需要扰动的人口统计术语。target_attribute:目标人口统计类别。perturbed:根据指定目标人口统计属性重写的文本片段。
- 数据分割:训练集94966个实例,验证集10551个实例。
数据集创建
- 注释过程:分为三个阶段:术语识别、属性识别、文本重写。
- 注释者:英语母语的Amazon Mechanical Turk工作者。
使用考虑
- 社会影响:通过发布首个大规模人口统计文本重写数据集,旨在推动NLP中公平性的未来工作,特别是减少数据集和语言模型中的偏见。
- 偏见讨论:数据源选择可能导致特定偏见,如数据主要来自西方世界,未来希望探索更多样化的数据源。
- 其他限制:扰动过程可能创建非真实的人物描述,不适用于所有NLP任务,如错误信息检测。
附加信息
- 数据集管理员:Rebecca Qian, Candace Ross, Jude Fernandes, Douwe Kiela, Adina Williams.
- 许可证信息:MIT许可证。
- 引用信息:https://arxiv.org/abs/2205.12586



