Noun Verb Dataset

github2024-02-26 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/noun-verb

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含自然发生的英语句子，这些句子具有非平凡的名词-动词歧义。数据集用于帮助英语词性标注器改进在名词-动词歧义上的表现，从而提高翻译和文本到语音合成的下游任务的准确性。

This dataset comprises naturally occurring English sentences that exhibit non-trivial noun-verb ambiguities. It is designed to assist English part-of-speech taggers in enhancing their performance on noun-verb ambiguities, thereby improving the accuracy of downstream tasks such as translation and text-to-speech synthesis.

创建时间：

2018-10-27

原始信息汇总

数据集概述

数据集名称

Noun Verb Dataset

数据集内容

包含自然发生的英语句子，这些句子具有非平凡的名词-动词歧义。

数据集格式

句子以CoNLL格式存储。
每个句子中的单个token被手动标注为VERB或NON-VERB。

数据集结构

分为Train/Dev/Test三个部分。
Dev和Test部分的标注包括XPOS, UPOS和FEATS列中的VERB或NON-VERB。
Train部分的XPOS和UPOS列被替换为通过自动标记器获得的预测的精细POS标签。

数据集示例

https://www.wikihow.com/Not-Get-Bored-on-a-Long-Car-Ride

1 License _ NN NN POS=NON-VERB|fPOS=NON-VERB -1 _ _ _ 2 plates _ _ _ _ -1 _ _ _ 3 of _ _ _ _ -1 _ _ _ 4 cars _ _ _ _ -1 _ _ _ 5 from _ _ _ _ -1 _ _ _ 6 your _ _ _ _ -1 _ _ _ 7 area _ _ _ _ -1 _ _ _ 8 or _ _ _ _ -1 _ _ _ 9 your _ _ _ _ -1 _ _ _ 10 destination _ _ _ _ -1 _ _ _ 11 . _ _ _ _ -1 _ _ _

数据集规模

Train: 23458个例子
Dev: 2367个例子
Test: 5907个例子

数据集用途

用于改进英语词性标注器在名词-动词歧义方面的性能，以提高其在翻译和文本到语音合成等下游任务中的实用性。

搜集汇总

数据集介绍

构建方式

Noun Verb Dataset的构建基于自然语言处理中的词性标注问题，特别是名词与动词的歧义性。该数据集收集了包含名词-动词歧义的英语句子，并以CoNLL格式进行标注。每个句子中均包含一个手动标注为VERB或NON-VERB的词汇。数据来源于多个领域，并在适用的情况下，提供了句子的原始网页URL。数据集被划分为训练集、开发集和测试集，其中训练集的XPOS和UPOS列由自动标注器生成，而开发集和测试集则直接包含人工标注的VERB或NON-VERB标签。

特点

Noun Verb Dataset的特点在于其专注于名词与动词的歧义性，这一现象在现有的词性标注器中常常被误判。数据集中的句子涵盖了多个领域，确保了数据的多样性和广泛性。每个句子中的关键词汇均经过人工标注，确保了标注的准确性。此外，数据集提供了详细的来源信息，便于研究者追溯和验证数据的真实性。数据集的划分方式也为模型的训练、验证和测试提供了清晰的框架。

使用方法

使用Noun Verb Dataset时，研究者可以将其应用于词性标注器的训练与评估，特别是针对名词与动词歧义性的处理。训练集可用于模型的初步训练，开发集则用于模型的调优和参数选择，测试集则用于最终的性能评估。数据集的CoNLL格式便于直接加载和处理，研究者可以通过分析标注结果，改进现有标注器的性能。此外，数据集提供的来源信息可用于进一步的数据分析和验证，确保研究结果的可靠性。

背景与挑战

背景概述

Noun Verb Dataset由Ali Elkahky、Kellie Webster、Daniel Andor和Emily Pitler等研究人员于2018年创建，旨在解决英语词性标注中名词与动词歧义问题。尽管自2002年以来，词性标注器在WSJ Penn Treebank上的准确率已达到97%以上，但在处理名词与动词歧义时仍存在显著错误。这些错误不仅影响标注器的性能，还对其下游任务如翻译和文本转语音合成产生负面影响。该数据集包含自然语言中的句子，每个句子中均包含一个手动标注为动词或非动词的词汇，涵盖了多个领域的文本。通过提供训练、开发和测试集，Noun Verb Dataset为研究者和开发者提供了一个量化并改进词性标注器性能的工具，推动了自然语言处理领域的发展。

当前挑战

Noun Verb Dataset面临的挑战主要体现在两个方面。首先，名词与动词歧义问题本身具有高度复杂性，尤其是在多义词和上下文依赖的情况下，标注器难以准确区分词汇的词性。尽管现有标注器在标准数据集上表现优异，但在处理此类歧义时仍存在显著错误，影响了其在实际应用中的可靠性。其次，在数据集的构建过程中，研究人员需要从多个领域收集自然语言句子，并手动标注每个句子中的歧义词，这一过程不仅耗时耗力，还要求标注者具备较高的语言学知识。此外，为了确保数据集的多样性和代表性，研究人员还需平衡不同领域和语境下的句子分布，进一步增加了数据集的构建难度。

常用场景

经典使用场景

Noun Verb Dataset 主要用于评估和改进英语词性标注器在处理名词-动词歧义时的性能。该数据集通过提供大量自然语言句子，其中包含手动标注的名词和动词，帮助研究人员测试和优化标注器在复杂语境下的表现。

实际应用

在实际应用中，Noun Verb Dataset 被广泛用于开发和测试自然语言处理系统，特别是在需要高精度词性标注的场景中。例如，在机器翻译系统中，准确的词性标注对于理解句子结构和生成正确的翻译至关重要。此外，该数据集还被用于语音合成系统，以确保生成的语音在语法和语义上的准确性。

衍生相关工作

基于 Noun Verb Dataset，研究人员开发了多种改进的词性标注模型和方法。例如，结合上下文嵌入（如ELMo）和银标准数据的模型显著提高了在名词-动词歧义任务上的表现。这些工作不仅推动了词性标注技术的发展，还为其他自然语言处理任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集