Phrase Detectives Corpus 2.1.4
收藏github2022-06-08 更新2024-05-31 收录
下载链接:
https://github.com/dali-ambiguity/Phrase-Detectives-Corpus-2.1.4
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含所有截至2018年10月12日通过Phrase Detectives游戏完全注释的文档的语料库。该语料库包含542个文档,总计408K个令牌和108K个可标记项。文档分为黄金子集和白银子集,分别包含专家和玩家的双重注释以及仅使用Mention Pair Annotation (MPA)方法的注释。
This is a corpus containing all documents fully annotated through the Phrase Detectives game as of October 12, 2018. The corpus comprises 542 documents, totaling 408K tokens and 108K markable items. The documents are divided into gold and silver subsets, which include dual annotations by experts and players, as well as annotations using only the Mention Pair Annotation (MPA) method.
创建时间:
2019-03-19
原始信息汇总
数据集概述
数据集名称
Phrase Detectives Corpus 2.1.4
发布日期
January 2019
数据集内容
- 文档总数:542 文档
- 总标记数:408K 标记
- 总可标记实体数:108K 可标记实体
文档子集
-
黄金子集:
- 文档数:45 文档
- 标记数:23K 标记
- 可标记实体数:6K 可标记实体
- 文档来源:
- Wikipedia pages (35 docs, 15287 tokens, 3957 markables)
- fiction from Project Gutenberg (5 docs, 7536 tokens, 1947 markables)
- art history texts from GNOME corpus (5 docs, 989 tokens, 274 markables)
-
银色子集:
- 文档数:497 文档
- 标记数:384K 标记
- 可标记实体数:101K 可标记实体
- 文档来源:
- Wikipedia pages (350 docs, 218K tokens, 57678 markables)
- fiction from Project Gutenberg (145 docs, 158739 tokens, 41898 markables)
标记格式
- MAS-XML:原始发布格式,包含所有玩家解释和验证。
- CONLL:仅包含每个可标记实体的一个解释。
- CRAC:与CONLL类似,仅提供一个解释。
注释方案
- NR:非参照,如 [It] rains。
- PR:用于谓词性NP,如 John is [a policeman]。
- DN:用于话语新提及。
- DO:用于话语旧提及。
文件结构
- 黄金子集:位于 gold 子文件夹。
- 银色子集:位于 silver 子文件夹。
下载链接
搜集汇总
数据集介绍

构建方式
Phrase Detectives Corpus 2.1.4 数据集的构建基于众包游戏平台 Phrase Detectives,通过玩家与专家的双重标注,确保了数据的高质量与可靠性。该数据集包含了截至2018年10月12日所有完全标注的文档,共计542篇,分为‘gold’和‘silver’两个子集。‘gold’子集由45篇文档组成,经过专家与玩家的双重标注,而‘silver’子集则包含497篇文档,仅通过Mention Pair Annotation (MPA) 概率聚合方法进行标注。每个文档的标记项均需至少8次标注,且每个解释需由至少4名玩家验证,确保了数据的广泛性与一致性。
特点
Phrase Detectives Corpus 2.1.4 数据集的特点在于其丰富的标注信息与多样的文档来源。数据集涵盖了来自维基百科、古腾堡计划小说集以及GNOME语料库的艺术史文本,共计408K个标记和108K个可标记项。‘gold’子集提供了专家与玩家的双重标注,确保了标注的准确性;而‘silver’子集则通过MPA方法进行概率聚合,提供了大规模的标注数据。此外,数据集提供了多种标注格式,包括MAS-XML、CONLL和CRAC,满足了不同研究需求。
使用方法
Phrase Detectives Corpus 2.1.4 数据集的使用方法灵活多样,适用于多种自然语言处理任务。数据集提供了三种标注格式:MAS-XML、CONLL和CRAC,用户可根据研究需求选择合适的格式进行数据处理。对于‘gold’子集,用户可同时访问专家与玩家的标注结果,进行对比分析;而‘silver’子集则提供了大规模的标注数据,适合用于模型训练与评估。数据集中的文档按‘gold’和‘silver’子集分别存放,用户可通过文件夹结构快速定位所需数据。此外,数据集还提供了详细的文档指南与标注方案,帮助用户更好地理解与使用数据。
背景与挑战
背景概述
Phrase Detectives Corpus 2.1.4是由Jon Chamberlain、Silviu Paun、Juntao Yu、Udo Kruschwitz和Massimo Poesio等研究人员于2019年1月发布的一个语料库,专注于指代消解(anaphora resolution)的标注任务。该语料库包含了截至2018年10月12日通过Phrase Detectives游戏平台完全标注的文档,共计542篇文档,涵盖408K个词元和108K个可标注项。语料库分为‘gold’和‘silver’两个子集,分别由专家和众包玩家进行标注。该数据集在自然语言处理领域,尤其是核心指代消解任务中具有重要影响力,为研究者提供了丰富的标注数据和多样化的文本类型,包括维基百科文章、小说和艺术史文本。
当前挑战
Phrase Detectives Corpus 2.1.4在构建和应用中面临多重挑战。首先,指代消解任务本身具有高度复杂性,尤其是在处理多义词、模糊指代和长距离依赖时,标注的准确性和一致性难以保证。其次,众包标注过程中,玩家的背景知识和标注质量参差不齐,导致数据噪声较大。尽管通过Mention Pair Annotation (MPA)概率聚合方法对标注进行了优化,但仍需进一步验证其在不同文本类型中的泛化能力。此外,语料库的规模虽大,但‘gold’子集仅包含45篇文档,限制了其在某些高精度任务中的应用。如何在保证数据质量的同时扩展标注规模,是该数据集未来发展的关键挑战。
常用场景
经典使用场景
Phrase Detectives Corpus 2.1.4 数据集广泛应用于自然语言处理领域,特别是在指代消解和共指消解任务中。该数据集通过众包方式收集了大量标注数据,涵盖了多种文本类型,包括维基百科文章、小说和艺术史文本。研究者可以利用这些数据来训练和评估指代消解模型,尤其是在处理复杂文本和跨文档指代时,该数据集提供了丰富的标注信息。
实际应用
在实际应用中,Phrase Detectives Corpus 2.1.4 数据集被广泛用于开发智能文本分析工具,如自动摘要生成、信息抽取和问答系统。这些工具在处理长文本和复杂文档时,能够更准确地识别和解析指代关系,从而提高文本理解的准确性和效率。此外,该数据集还被用于教育领域,帮助学生和研究者更好地理解指代消解的原理和应用。
衍生相关工作
基于 Phrase Detectives Corpus 2.1.4 数据集,研究者们开发了多种经典的指代消解模型和算法。例如,Mention Pair Annotation (MPA) 模型通过概率聚合方法提高了众包标注数据的质量。此外,该数据集还催生了一系列关于指代消解和共指消解的研究论文,推动了自然语言处理领域的技术创新和理论发展。
以上内容由遇见数据集搜集并总结生成



