nna-datasets
收藏github2022-11-09 更新2024-05-31 收录
下载链接:
https://github.com/ajroussel/nna-datasets
下载链接
链接失效反馈官方服务:
资源简介:
用于分析非名词性先行词指代的数据集和脚本,包含多种语言的数据集,如德语和英语的壳名词复合体等。
A dataset and scripts for analyzing non-nominal antecedent references, including datasets in multiple languages such as shell noun complexes in German and English.
创建时间:
2018-08-29
原始信息汇总
数据集概述
数据集名称
nna-datasets
数据集内容
数据集主要包含两部分:
- 代词数据集:用于分析非名词性先行词的代词。
- 壳名词数据集:用于分析德语和英语中的壳名词复合体。
数据格式
数据集以TSV表格形式提供,包括:
tokens.tsv:仅包含标记。tokens_parsed.tsv:包含POS标签、词形和依赖解析,使用SpaCy工具包。
数据集结构
-
代词数据集:
pronouns目录下包含多个子目录,分别对应不同的注释者(annotator1和annotator2)和黄金标准(gold)。每个子目录包含anaphors.tsv、antecedents.tsv和linktable.tsv。- 基础数据文件:
tokens.tsv和tokens_parsed.tsv。
-
壳名词数据集:
- 分别在
shellnouns-de和shellnouns-en目录下,每个目录结构与代词数据集类似,包含contentphrases.tsv、linktable.tsv和shellnouns.tsv。 - 基础数据文件:
tokens.tsv和tokens_parsed.tsv。
- 分别在
使用说明
- 提供了R脚本用于加载数据(
loadData.R)、生成表格和图形(graphics.R)以及实用函数(util.R)。 - 加载数据后,将生成多个有用的数据表,如
pro.tokens、sn.tokens、both.sns等。
引用信息
搜集汇总
数据集介绍

构建方式
nna-datasets的构建基于对非名词性先行词的回指现象进行深入分析的需求。数据集通过标注代词和壳名词(shell nouns)的语料库,结合SpaCy工具包进行词性标注、词干提取和依存句法分析。数据集的标注工作由两位独立的标注者完成,并通过黄金标准(gold standard)进行验证,以确保标注的一致性和准确性。数据以TSV表格形式存储,便于后续的分析和处理。
特点
nna-datasets的特点在于其专注于非名词性先行词的回指现象,涵盖了代词和壳名词的复杂语言结构。数据集提供了丰富的标注信息,包括词性、词干和依存句法分析,能够支持多层次的语言学研究。此外,数据集还提供了两位标注者的独立标注结果以及黄金标准,便于研究者进行对比分析和模型训练。数据集的跨语言特性(包含德语和英语)进一步增强了其适用性和研究价值。
使用方法
nna-datasets的使用方法简便灵活,数据以TSV表格形式提供,可直接通过R或Pandas等工具进行读取和处理。数据集附带的R脚本(如`loadData.R`)提供了数据加载、表格生成和图形绘制的功能,极大地方便了研究者的数据分析工作。通过链接表(linktable.tsv),用户可以轻松地将回指词与先行词进行关联,从而进行更深入的语言学分析。数据集的黄金标准部分可直接用于模型训练和评估,为自然语言处理任务提供了高质量的标注数据。
背景与挑战
背景概述
nna-datasets 是一个专注于非名词性先行词回指分析的数据集,由多位研究人员在不同时间段共同构建。该数据集的核心研究问题在于解决自然语言处理中非名词性先行词回指的复杂性问题。2012年,Dipper 和 Zinsmeister 首次提出了代词数据集,用于标注抽象回指现象。随后,Simonjetz 和 Roussel 在2016年扩展了该数据集,引入了壳名词(shell nouns)的跨语言标注,涵盖了德语和英语的复杂结构。这些研究为计算语言学领域提供了重要的理论支持和数据资源,推动了回指分析技术的发展。
当前挑战
nna-datasets 面临的挑战主要体现在两个方面。首先,非名词性先行词回指现象的复杂性使得标注过程极为困难,尤其是在跨语言环境下,不同语言的语法结构和表达方式差异显著,增加了标注的一致性和准确性难度。其次,数据集的构建过程中,研究人员需要处理大量的文本数据,并通过多轮标注和校对来确保数据的可靠性。此外,如何将标注数据与现有的自然语言处理工具(如SpaCy)无缝集成,以支持更广泛的研究和应用,也是一个重要的技术挑战。这些挑战不仅影响了数据集的构建效率,也对后续的研究提出了更高的要求。
常用场景
经典使用场景
在自然语言处理领域,nna-datasets数据集被广泛用于研究非名词性先行词的指代消解问题。该数据集通过提供详细的代词和壳名词的标注信息,帮助研究者深入分析语言中的抽象指代现象。特别是在跨语言研究中,该数据集为德语和英语的壳名词复合体提供了丰富的标注数据,成为相关研究的基石。
解决学术问题
nna-datasets解决了自然语言处理中非名词性先行词指代消解的难题。通过提供高质量的标注数据,该数据集为研究者提供了分析抽象指代现象的工具,推动了指代消解算法的改进。其标注的壳名词和代词数据,帮助研究者理解语言中复杂的指代关系,填补了该领域的研究空白。
衍生相关工作
nna-datasets衍生了许多经典的研究工作,特别是在指代消解和壳名词分析领域。例如,Dipper和Zinsmeister的研究为代词指代消解提供了理论基础,而Simonjetz和Roussel的工作则推动了跨语言壳名词分析的发展。这些研究不仅扩展了数据集的应用范围,还为后续的算法设计和模型优化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



