five

facebook/panda

收藏
Hugging Face2022-12-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/facebook/panda
下载链接
链接失效反馈
官方服务:
资源简介:
PANDA(Perturbation Augmentation NLP DAtaset)数据集包含大约10万对由众包工作者生成的人类扰动文本片段(原始文本和扰动文本)。注释者被要求根据性别、种族和年龄三个维度重写文本片段,同时保持语义不变。文本片段来源于多个文本语料库(如BookCorpus、Wikipedia、ANLI、MNLI、SST、SQuAD)。该数据集可用于训练能够控制文本重写的扰动模型,并评估语言模型在人口统计属性上的鲁棒性。
提供机构:
facebook
原始信息汇总

数据集概述

数据集名称

  • 名称:PANDA (Perturbation Augmentation NLP DAtaset)
  • 别名:panda

数据集基本信息

  • 语言:英语
  • 许可证:MIT
  • 多语言性:单语
  • 大小:100K<n<1M
  • 来源:原始数据
  • 标签:公平性、NLP、人口统计、多样性、性别、非二元性别、种族、年龄
  • 任务类别:token-classification

数据集内容

  • 描述:PANDA包含约100K对由人群工作者扰动生成的文本片段(原始、扰动)。注释者根据给定的术语和目标人口统计属性,被指导沿着性别、种族和年龄三个人口统计轴重写文本片段,同时保持语义意义。文本片段来自多种文本语料库(BookCorpus、Wikipedia、ANLI、MNLI、SST、SQuAD)。
  • 用途:用于训练能够控制重写文本的扰动模型,以及评估语言模型的人口统计鲁棒性。

数据集结构

  • 数据实例:包含原始文本、选定词汇、目标属性、扰动文本。
  • 数据字段
    • original:源(未扰动)文本片段。
    • selected_word:需要扰动的人口统计术语。
    • target_attribute:目标人口统计类别。
    • perturbed:根据指定目标人口统计属性重写的文本片段。
  • 数据分割:训练集94966个实例,验证集10551个实例。

数据集创建

  • 注释过程:分为三个阶段:术语识别、属性识别、文本重写。
  • 注释者:英语母语的Amazon Mechanical Turk工作者。

使用考虑

  • 社会影响:通过发布首个大规模人口统计文本重写数据集,旨在推动NLP中公平性的未来工作,特别是减少数据集和语言模型中的偏见。
  • 偏见讨论:数据源选择可能导致特定偏见,如数据主要来自西方世界,未来希望探索更多样化的数据源。
  • 其他限制:扰动过程可能创建非真实的人物描述,不适用于所有NLP任务,如错误信息检测。

附加信息

  • 数据集管理员:Rebecca Qian, Candace Ross, Jude Fernandes, Douwe Kiela, Adina Williams.
  • 许可证信息:MIT许可证。
  • 引用信息:https://arxiv.org/abs/2205.12586
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作