ABC-dataset

github2020-10-19 更新2024-05-31 收录

下载链接：

https://github.com/anavaleriagonzalez/ABC-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究多语言多任务性别偏见，特别是在Type B Reflexivization方面的应用。数据集被用于EMNLP 2020会议的论文中，提供了详细的数据生成细节和使用指导。

This dataset is utilized for investigating multilingual and multitask gender biases, particularly in the context of Type B Reflexivization. It was employed in a paper presented at the EMNLP 2020 conference, offering comprehensive details on data generation and usage guidelines.

创建时间：

2020-04-14

原始信息汇总

数据集概述

数据集名称

Antireflexive Bias Challenge Dataset

数据集来源

数据集来源于论文 "Type B Reflexivization as an Unambiguous Testbed for Multilingual Multi-Task Gender Bias"，该论文已被EMNLP 2020接受。

数据集内容

语言模型（LM）的困惑度分数：
- 支持语言：丹麦语（da）、瑞典语（sv）、中文（zh）、俄语（ru）
- 命令示例：python experiments/LM/lm.py --lang da --filename data/COREF_LM/coref_lm.da --data ABC
- 输出格式：每种性别的损失困惑度
- 输出位置：outputs/lm/
机器翻译（MT）：
- 使用模型：俄语和中文的预训练模型，以及Google翻译
- 输入数据：data/MT/source.en
- 评估指标：反身代词与性别所有格代词的预测差异
- 命令示例：python experiments/MT/evaluate_translation.py --lang sv --translations outputs/mt/preds_google.sv
- 输出位置：outputs/mt/
共指消解（Coreference Resolution）：
- 使用模型：https://github.com/mandarjoshi90/coref
- 中文数据集：Ontonotes5的子集
- 俄语数据集：http://rucoref.maimbava.net/
- 输出位置：outputs/coref
自然语言推理（NLI）：
- 预处理命令：python experiments/NLI/preprocess_nli.py
- 模型参数：针对不同语言使用不同的模型和参数设置
- 输出位置：未明确指出

数据集使用说明

数据集的具体使用方法和脚本运行指令在README文件中有详细说明。
为了复现论文中的结果，需要按照提供的指令运行相应的脚本。

搜集汇总

数据集介绍

构建方式

ABC-dataset的构建基于多语言多任务性别偏差的研究，旨在通过反身代词的使用来揭示语言模型中的性别偏差。数据集的生成细节在EMNLP 2020的论文中进行了详细描述，涵盖了多种语言的语料库，并通过特定的脚本和模型进行数据处理和分析。数据集的构建过程包括语言模型的困惑度计算、机器翻译的评估以及共指消解的训练，确保了数据的多样性和代表性。

特点

ABC-dataset的特点在于其多语言性和多任务性，涵盖了丹麦语、瑞典语、中文和俄语等多种语言。数据集通过反身代词的使用，提供了对语言模型中性别偏差的明确测试平台。此外，数据集还包含了机器翻译和共指消解的实验结果，为研究者提供了丰富的分析维度。数据集的输出格式清晰，便于进一步的研究和应用。

使用方法

使用ABC-dataset时，研究者可以通过提供的脚本进行语言模型的困惑度计算、机器翻译的评估以及共指消解的训练。具体操作包括运行`lm.py`脚本获取困惑度分数，使用`evaluate_translation.py`脚本评估机器翻译结果，以及通过`preprocess_nli.py`脚本预处理自然语言推理数据。数据集的使用方法详细且易于操作，确保了研究过程的顺利进行。

背景与挑战

背景概述

ABC-dataset是由研究人员在2020年EMNLP会议上提出的，旨在解决多语言多任务中的性别偏见问题。该数据集的核心研究问题是通过反身代词的使用来测试和量化语言模型中的性别偏见。数据集涵盖了多种语言，包括丹麦语、瑞典语、中文和俄语，旨在为性别偏见研究提供一个明确的测试平台。该数据集的创建不仅推动了自然语言处理领域对性别偏见的深入理解，还为跨语言模型的无偏性评估提供了重要工具。

当前挑战

ABC-dataset在解决多语言性别偏见问题时面临多重挑战。首先，不同语言在语法结构和代词使用上存在显著差异，这增加了模型在多语言环境中一致性地检测和纠正性别偏见的难度。其次，数据集的构建过程中，研究人员需要确保反身代词的使用在不同语言中具有可比性，这对数据标注和验证提出了高要求。此外，由于部分语言的可用数据量有限，如俄语的语料库较小，导致模型在这些语言上的表现不够显著，进一步增加了研究的复杂性。

常用场景

经典使用场景

ABC-dataset在多语言多任务性别偏见研究中扮演了关键角色，特别是在反身代词的使用上。该数据集通过提供多种语言的语料，使得研究者能够深入探讨语言模型在处理性别相关代词时的表现。通过计算不同性别代词的困惑度，研究者能够评估模型在性别偏见上的敏感度，从而为改进模型提供数据支持。

衍生相关工作

ABC-dataset的发布催生了一系列相关研究，特别是在多语言性别偏见检测和模型优化方面。例如，基于该数据集的研究成果已被用于改进XLM模型的多语言推理能力。此外，该数据集还为其他研究者提供了基准，推动了更多关于语言模型公平性和包容性的研究。

数据集最近研究