facebook/panda

Name: facebook/panda
Creator: facebook
Published: 2022-12-10 14:01:45
License: 暂无描述

Hugging Face2022-12-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/facebook/panda

下载链接

链接失效反馈

官方服务：

资源简介：

PANDA（Perturbation Augmentation NLP DAtaset）数据集包含大约10万对由众包工作者生成的人类扰动文本片段（原始文本和扰动文本）。注释者被要求根据性别、种族和年龄三个维度重写文本片段，同时保持语义不变。文本片段来源于多个文本语料库（如BookCorpus、Wikipedia、ANLI、MNLI、SST、SQuAD）。该数据集可用于训练能够控制文本重写的扰动模型，并评估语言模型在人口统计属性上的鲁棒性。

提供机构：

facebook

原始信息汇总

数据集概述

数据集名称

名称：PANDA (Perturbation Augmentation NLP DAtaset)
别名：panda

数据集基本信息

语言：英语
许可证：MIT
多语言性：单语
大小：100K<n<1M
来源：原始数据
标签：公平性、NLP、人口统计、多样性、性别、非二元性别、种族、年龄
任务类别：token-classification

数据集内容

描述：PANDA包含约100K对由人群工作者扰动生成的文本片段（原始、扰动）。注释者根据给定的术语和目标人口统计属性，被指导沿着性别、种族和年龄三个人口统计轴重写文本片段，同时保持语义意义。文本片段来自多种文本语料库（BookCorpus、Wikipedia、ANLI、MNLI、SST、SQuAD）。
用途：用于训练能够控制重写文本的扰动模型，以及评估语言模型的人口统计鲁棒性。

数据集结构

数据实例：包含原始文本、选定词汇、目标属性、扰动文本。
数据字段：
- original：源（未扰动）文本片段。
- selected_word：需要扰动的人口统计术语。
- target_attribute：目标人口统计类别。
- perturbed：根据指定目标人口统计属性重写的文本片段。
数据分割：训练集94966个实例，验证集10551个实例。

数据集创建

注释过程：分为三个阶段：术语识别、属性识别、文本重写。
注释者：英语母语的Amazon Mechanical Turk工作者。

使用考虑

社会影响：通过发布首个大规模人口统计文本重写数据集，旨在推动NLP中公平性的未来工作，特别是减少数据集和语言模型中的偏见。
偏见讨论：数据源选择可能导致特定偏见，如数据主要来自西方世界，未来希望探索更多样化的数据源。
其他限制：扰动过程可能创建非真实的人物描述，不适用于所有NLP任务，如错误信息检测。

附加信息

数据集管理员：Rebecca Qian, Candace Ross, Jude Fernandes, Douwe Kiela, Adina Williams.
许可证信息：MIT许可证。
引用信息：https://arxiv.org/abs/2205.12586

5,000+

优质数据集

54 个

任务类型

进入经典数据集