GAP Coreference Dataset

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/gap-coreference

下载链接

链接失效反馈

官方服务：

资源简介：

GAP是一个性别平衡的数据集，包含8,908个核心参考标记对，这些对由（模糊代词，先行词名称）组成，采样自维基百科，用于评估实际应用中的核心参考解析。

GAP is a gender-balanced dataset comprising 8,908 coreference-annotated pairs, each consisting of an ambiguous pronoun and an antecedent name. These pairs are sampled from Wikipedia and are utilized for evaluating coreference resolution in practical applications.

创建时间：

2018-10-19

原始信息汇总

GAP Coreference Dataset 概述

数据集基本信息

名称: GAP Coreference Dataset
来源: 由 Google AI Language 发布
样本数量: 包含 8,908 个核心参考标记的配对
内容: 包含 (模糊代词, 先行词名称) 的配对，采样自 Wikipedia
目的: 用于评估实际应用中的核心参考解析
特点: 性别平衡，以解决核心参考系统中的性别偏见问题

数据集构成

文件: 包含三个 .tsv 文件
- test: 4,000 对，用于官方评估
- development: 4,000 对，用于模型开发
- validation: 908 对，用于参数调整

数据集详细结构

列数: 11 列
列描述:
- ID: 唯一标识符
- Text: 包含模糊代词和两个候选名称的文本
- Pronoun: 代词文本
- Pronoun-offset: 代词在文本中的字符偏移
- A: 第一个名称文本
- A-offset: 第一个名称在文本中的字符偏移
- A-coref: 第一个名称是否与代词核心参考，TRUE 或 FALSE
- B: 第二个名称文本
- B-offset: 第二个名称在文本中的字符偏移
- B-coref: 第二个名称是否与代词核心参考，TRUE 或 FALSE
- URL: 来源 Wikipedia 页面的 URL

任务设置

snippet-context: URL 列不可用
page-context: URL 和指定的 Wikipedia 页面可用

基准测试

性能指标: F1 分数，包括男性 (M)、女性 (F)、总体 (O) 和偏差因子 (B)
测试结果:
- snippet-context: M=69.4, F=64.4, B=0.93, O=66.9
- page-context: M=72.3, F=68.8, B=0.95, O=70.6

搜集汇总

数据集介绍

构建方式

GAP Coreference Dataset的构建过程基于从维基百科中抽取的8,908对（模糊代词，先行词名称）共指标注对。该数据集由Google AI Language团队精心设计，旨在解决自然语言理解中的共指消解问题，特别是针对模糊代词的消解挑战。数据集的构建特别注重性别平衡，以应对现有共指系统中普遍存在的性别偏见问题。

特点

GAP Coreference Dataset的特点在于其性别平衡性和多样性。数据集包含8,908对共指标注对，涵盖了从维基百科中抽取的广泛文本类型，确保了模型在真实世界文本中的实用性和泛化能力。此外，数据集分为测试集、开发集和验证集，分别用于官方评估、模型开发和参数调优，提供了全面的评估框架。

使用方法

使用GAP Coreference Dataset时，用户可以通过加载三个.tsv文件来访问数据集。每个文件包含11列，分别记录了文本、代词、候选名称及其在文本中的位置信息。用户可以根据任务需求选择不同的上下文设置，如片段上下文或页面上下文，以评估模型在不同场景下的表现。此外，数据集提供了详细的基准性能指标，帮助用户对比和优化模型性能。

背景与挑战

背景概述

GAP Coreference Dataset由Google AI Language团队于2018年发布，旨在解决自然语言理解中的共指消解问题，特别是针对模糊代词的消解。该数据集包含8,908对共指标注的（模糊代词，先行词名称）对，样本来源于维基百科，确保了数据的多样性和实际应用中的广泛覆盖。GAP数据集特别注重性别平衡，以应对现有共指消解系统中存在的性别偏见问题。该数据集的发布为共指消解领域的研究提供了重要的基准，推动了相关技术的发展。

当前挑战

GAP Coreference Dataset在解决共指消解问题时面临多重挑战。首先，模糊代词的消解本身具有高度复杂性，尤其是在实际文本中，代词与先行词之间的关系往往模糊不清，难以准确判断。其次，构建过程中需要确保数据集的性别平衡，以避免模型在训练过程中产生性别偏见，这增加了数据采集和标注的难度。此外，数据集的多样性和实际应用场景的广泛覆盖要求样本来源必须具有代表性，这对数据的选择和处理提出了更高的要求。这些挑战共同构成了GAP数据集在共指消解领域中的重要性和复杂性。

常用场景

经典使用场景

GAP Coreference Dataset在自然语言处理领域中被广泛用于评估指代消解模型的性能。该数据集通过提供来自维基百科的8,908对（模糊代词，先行词名称）标注对，涵盖了实际文本中的多样性挑战，特别适用于测试模型在处理性别平衡数据时的表现。研究人员通常使用该数据集进行模型开发、参数调优和官方评估，以确保模型在实际应用中的鲁棒性和准确性。

衍生相关工作

GAP Coreference Dataset的发布催生了一系列相关研究，特别是在指代消解和性别偏见消除领域。许多研究基于该数据集提出了新的模型和算法，如基于深度学习的指代消解模型和性别偏见检测方法。此外，该数据集还被用于评估和改进现有的自然语言处理工具，如BERT和GPT等预训练模型，进一步推动了自然语言处理技术的发展。

数据集最近研究