five

Phrase Detectives Corpus 3.0

收藏
github2023-04-27 更新2024-05-31 收录
下载链接:
https://github.com/dali-ambiguity/Phrase-Detectives-Corpus-3.0
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含所有截至2022年1月19日完全注释的文档的语料库,使用Phrase Detectives游戏进行注释。数据集包含805个文档,总计1.37M个标记和383K个可标记项。数据集分为new_gold、gold和silver三个子集,分别来自不同的文档类型和注释方式。

This is a corpus comprising all fully annotated documents up to January 19, 2022, annotated using the Phrase Detectives game. The dataset includes 805 documents, totaling 1.37M tokens and 383K markable items. The dataset is divided into three subsets: new_gold, gold, and silver, each derived from different document types and annotation methods.
创建时间:
2023-01-27
原始信息汇总

数据集概述

数据集名称

Phrase Detectives Corpus 3.0

发布日期

2023年4月

数据集内容

该数据集包含805篇文档,总计1.37M个词和383K个可标记项。这些文档被分为以下几个子集:

  1. new_gold子集:包含20篇文档,43K个词,13K个可标记项。这些文档由Phrase Detectives玩家和两位专家共同标注,根据简化版的ARRUR标注指南进行新标注。此子集将作为未来新共享任务的测试集。

  2. gold子集:包含45篇文档,23K个词,6K个可标记项。这些文档是2016年发布的Phrase Detectives 1.0数据集的清理版本,同样包含玩家和专家的标注。

  3. silver子集:包含740篇文档,1.3M个词,363K个可标记项。这些文档仅提供MPA(Mention Pair Annotation)银标标注。

文档来源

  • Wikipedia页面:共579篇,包括new_gold子集的13篇,gold子集的35篇,silver子集的544篇。
  • Project Gutenberg的虚构作品:共206篇,包括new_gold子集的7篇,gold子集的5篇,silver子集的194篇。
  • GNOME corpus的艺术史文本:gold子集的5篇。

标注格式

数据集提供三种不同的标注格式:

  • MAS-XML:原始发布格式,包含所有玩家解释。
  • CONLL:CONLL 2011和2012共享任务格式,每个可标记项仅提供一个解释。
  • CONLLUA:CODI-CRAC 2021/2022共享任务格式,每个可标记项仅提供一个解释。

标注方案

可标记项根据以下标签进行标注:

  • NR:非指称性。
  • PR:用于谓词性NP。
  • DN:用于话语新提及。
  • DO:用于话语旧提及。

文件结构

数据集的new_gold、gold和silver子集分别存储在名为new_gold、gold和silver的子文件夹中。

相关论文

数据集的详细文档和初步分析已在EACL 2023会议上发表。

搜集汇总
数据集介绍
main_image_url
构建方式
Phrase Detectives Corpus 3.0 数据集的构建基于众包游戏 Phrase Detectives,通过该游戏平台收集了大量关于指代消解的标注数据。数据集包含805份文档,总计137万词汇和38.3万个标记项。这些文档分为三个子集:'new_gold'、'gold' 和 'silver'。其中,'new_gold' 和 'gold' 子集由专家和玩家共同标注,而 'silver' 子集则仅包含通过概率聚合方法生成的标注。每个标记项平均有20.6个标注,确保数据的多样性和可靠性。
特点
Phrase Detectives Corpus 3.0 数据集的特点在于其丰富的标注层次和多源数据融合。数据集不仅包含来自维基百科和古腾堡计划的文本,还涵盖了艺术史文献,提供了多样化的文本类型。标注方案包括非指代、谓词性名词短语、话语新提及和话语旧提及等类别,特别支持分裂先行词的复数标记。此外,数据集提供了三种格式(MAS-XML、CONLL 和 CONLLUA),便于不同研究场景下的使用。
使用方法
Phrase Detectives Corpus 3.0 数据集的使用方法灵活多样,适用于指代消解、自然语言处理等领域的研究。数据集提供了详细的标注信息和多种格式,用户可以根据需求选择适合的格式进行解析。对于 'new_gold' 和 'gold' 子集,用户可以直接使用专家标注的黄金标准进行模型训练和评估;而对于 'silver' 子集,则可以通过概率聚合方法生成的标注进行大规模数据分析。数据集还支持共享任务,为研究者提供了丰富的实验数据。
背景与挑战
背景概述
Phrase Detectives Corpus 3.0是由Jon Chamberlain、Silviu Paun、Juntao Yu、Udo Kruschwitz和Massimo Poesio等研究人员于2023年4月发布的一个指代消解标注语料库。该语料库基于Phrase Detectives这一众包游戏平台,旨在通过集体智慧构建大规模的语言资源。语料库包含805篇文档,共计137万词汇和38.3万个可标注项,涵盖了维基百科、古腾堡计划小说集以及艺术史文本等多种文体。其核心研究问题在于通过众包方式解决指代消解中的标注不一致性,并为自然语言处理领域提供高质量的标注数据。该语料库的发布对指代消解、共指解析等任务的研究具有重要推动作用,并为相关领域的模型训练与评估提供了宝贵资源。
当前挑战
Phrase Detectives Corpus 3.0在构建过程中面临多重挑战。首先,指代消解任务本身具有高度复杂性,尤其是在处理多义性、模糊性和长距离依赖时,标注的一致性难以保证。其次,众包标注的引入虽然扩大了数据规模,但也带来了标注质量参差不齐的问题,需要通过专家验证和概率聚合方法(如Mention Pair Annotation)进行校正。此外,语料库的多样性要求涵盖不同文体和领域,这进一步增加了标注的难度。在技术层面,如何高效整合众包标注与自动化标注系统,并确保数据的可扩展性与一致性,是构建过程中的核心挑战。这些问题的解决不仅提升了语料库的质量,也为未来指代消解研究提供了重要的方法论参考。
常用场景
经典使用场景
Phrase Detectives Corpus 3.0 是一个专为指代消解任务设计的语料库,广泛应用于自然语言处理领域。该数据集通过众包方式收集了大量标注数据,涵盖了维基百科和古腾堡计划中的小说文本。其经典使用场景包括训练和评估指代消解模型,尤其是在处理复杂文本中的指代关系时,该数据集提供了丰富的标注信息,帮助研究者深入理解指代现象的多样性。
实际应用
在实际应用中,Phrase Detectives Corpus 3.0 被广泛用于构建和优化指代消解系统,这些系统在信息抽取、机器翻译和问答系统等领域具有重要价值。例如,在维基百科文本的处理中,该数据集帮助系统更准确地识别和链接实体,从而提升信息检索的效率。此外,该数据集还为教育技术中的文本理解工具提供了支持,帮助学生更好地理解复杂文本中的指代关系。
衍生相关工作
Phrase Detectives Corpus 3.0 催生了多项经典研究工作,尤其是在指代消解模型的开发和评估方面。例如,基于该数据集的 Mention Pair Annotation (MPA) 方法为众包标注数据的聚合提供了新的思路。此外,该数据集还被用于多个国际共享任务,如 CODI-CRAC 2021/2022 中的指代消解任务,推动了指代消解技术的标准化和普及。相关研究论文如 Yu et al. (2023) 和 Poesio et al. (2019) 进一步扩展了该数据集的应用范围,为指代消解领域的研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作