five

BUG

收藏
arXiv2021-09-10 更新2024-07-24 收录
下载链接:
https://github.com/SLAB-NLP/BUG
下载链接
链接失效反馈
官方服务:
资源简介:
BUG数据集是由耶路撒冷希伯来大学计算机科学与工程学院创建的,包含108,000个多样化的真实世界英语句子,旨在评估和减轻机器翻译和指代消解模型中的性别偏见。该数据集通过半自动方法从三个不同领域的语料库中抽取,确保每个句子至少包含一个人类实体和一个性别代词。数据集的创建过程涉及设计14种不同的句法模式,并使用SPIKE引擎检索匹配的句子。BUG数据集的应用领域主要集中在性别偏见的评估和缓解技术上,特别是在机器翻译和指代消解模型中。

The BUG Dataset was created by the School of Computer Science and Engineering, The Hebrew University of Jerusalem. It comprises 108,000 diverse real-world English sentences, and is designed to evaluate and mitigate gender bias in machine translation and coreference resolution models. This dataset was extracted from corpora across three distinct domains through a semi-automated approach, ensuring that every sentence contains at least one human entity and a gender pronoun. The dataset's development process involved designing 14 distinct syntactic patterns and retrieving matching sentences using the SPIKE Engine. The primary application domains of the BUG Dataset focus on gender bias evaluation and mitigation techniques, particularly for machine translation and coreference resolution models.
提供机构:
计算机科学与工程学院,耶路撒冷希伯来大学
创建时间:
2021-09-09
原始信息汇总

BUG Dataset

概述

BUG数据集是一个大规模性别偏见数据集,用于共指消解和机器翻译(Levy et al., Findings of EMNLP 2021)。该数据集从不同的真实世界语料库中半自动收集,旨在挑战机器翻译和共指消解中的社会性别角色分配。

数据集分区

Full BUG

包含105,687个句子,每个句子中有人类实体,通过其职业和性别代词识别。

Gold BUG

包含1,717个句子,这些是经过人工验证的金质量样本。

Balanced BUG

包含25,504个句子,从Full BUG中随机抽样,以确保男性和女性实体之间以及典型和非典型性别角色分配之间的平衡。

数据集格式

数据文件夹中的每个文件都是一个csv文件,遵循以下格式:

标题 描述
1 sentence_text 包含人类实体的句子文本,通过其职业和性别代词识别
2 tokens 使用spacy分词器的词列表
3 profession 句子中的实体
4 g 句子中的代词
5 profession_first_index 职业在句子中的词偏移量
6 g_first_index 代词在句子中的词偏移量
7 predicted gender 由代词确定的性别(male/female)
8 stereotype 反典型、中性、典型句子的标记(-1/0/1)
9 distance 代词和职业之间的绝对词距离
10 num_of_pronouns 句子中的代词数量
11 corpus 句子来源的语料库
12 data_index 句子的查询索引

评估

以下是重现我们在BUG数据集上的评估的说明。

共指消解

  1. 此链接下载Spanbert预测结果。
  2. 解压缩并将coref_preds.jsonl放入predictions/文件夹中。
  3. src/evaluations/运行python evaluate_coref.py --in=../../predictions/coref_preds.jsonl --out=../../visualizations/delta_s_by_dist.png
  4. 这将重现共指消解评估图

转换

CoNLL

将每个数据分区转换为CoNLL格式,运行:

python convert_to_conll.py --in=path/to/input/file --out=path/to/output/file

例如:

python convert_to_conll.py --in=../../data/gold_BUG.csv --out=./gold_bug.conll

引用

@misc{levy2021collecting, title={Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation}, author={Shahar Levy and Koren Lazar and Gabriel Stanovsky}, year={2021}, eprint={2109.03858}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作