five

Noun Verb Dataset

收藏
github2024-02-26 更新2024-05-31 收录
下载链接:
https://github.com/google-research-datasets/noun-verb
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含自然发生的英语句子,这些句子具有非平凡的名词-动词歧义。数据集用于帮助英语词性标注器改进在名词-动词歧义上的表现,从而提高翻译和文本到语音合成的下游任务的准确性。

This dataset comprises naturally occurring English sentences that exhibit non-trivial noun-verb ambiguities. It is designed to assist English part-of-speech taggers in enhancing their performance on noun-verb ambiguities, thereby improving the accuracy of downstream tasks such as translation and text-to-speech synthesis.
创建时间:
2018-10-27
原始信息汇总

数据集概述

数据集名称

  • Noun Verb Dataset

数据集内容

  • 包含自然发生的英语句子,这些句子具有非平凡的名词-动词歧义。

数据集格式

  • 句子以CoNLL格式存储。
  • 每个句子中的单个token被手动标注为VERB或NON-VERB。

数据集结构

  • 分为Train/Dev/Test三个部分。
  • Dev和Test部分的标注包括XPOS, UPOS和FEATS列中的VERB或NON-VERB。
  • Train部分的XPOS和UPOS列被替换为通过自动标记器获得的预测的精细POS标签。

数据集示例

https://www.wikihow.com/Not-Get-Bored-on-a-Long-Car-Ride

1 License _ NN NN POS=NON-VERB|fPOS=NON-VERB -1 _ _ _ 2 plates _ _ _ _ -1 _ _ _ 3 of _ _ _ _ -1 _ _ _ 4 cars _ _ _ _ -1 _ _ _ 5 from _ _ _ _ -1 _ _ _ 6 your _ _ _ _ -1 _ _ _ 7 area _ _ _ _ -1 _ _ _ 8 or _ _ _ _ -1 _ _ _ 9 your _ _ _ _ -1 _ _ _ 10 destination _ _ _ _ -1 _ _ _ 11 . _ _ _ _ -1 _ _ _

数据集规模

  • Train: 23458个例子
  • Dev: 2367个例子
  • Test: 5907个例子

数据集用途

  • 用于改进英语词性标注器在名词-动词歧义方面的性能,以提高其在翻译和文本到语音合成等下游任务中的实用性。
搜集汇总
数据集介绍
main_image_url
构建方式
Noun Verb Dataset的构建基于自然语言处理中的词性标注问题,特别是名词与动词的歧义性。该数据集收集了包含名词-动词歧义的英语句子,并以CoNLL格式进行标注。每个句子中均包含一个手动标注为VERB或NON-VERB的词汇。数据来源于多个领域,并在适用的情况下,提供了句子的原始网页URL。数据集被划分为训练集、开发集和测试集,其中训练集的XPOS和UPOS列由自动标注器生成,而开发集和测试集则直接包含人工标注的VERB或NON-VERB标签。
特点
Noun Verb Dataset的特点在于其专注于名词与动词的歧义性,这一现象在现有的词性标注器中常常被误判。数据集中的句子涵盖了多个领域,确保了数据的多样性和广泛性。每个句子中的关键词汇均经过人工标注,确保了标注的准确性。此外,数据集提供了详细的来源信息,便于研究者追溯和验证数据的真实性。数据集的划分方式也为模型的训练、验证和测试提供了清晰的框架。
使用方法
使用Noun Verb Dataset时,研究者可以将其应用于词性标注器的训练与评估,特别是针对名词与动词歧义性的处理。训练集可用于模型的初步训练,开发集则用于模型的调优和参数选择,测试集则用于最终的性能评估。数据集的CoNLL格式便于直接加载和处理,研究者可以通过分析标注结果,改进现有标注器的性能。此外,数据集提供的来源信息可用于进一步的数据分析和验证,确保研究结果的可靠性。
背景与挑战
背景概述
Noun Verb Dataset由Ali Elkahky、Kellie Webster、Daniel Andor和Emily Pitler等研究人员于2018年创建,旨在解决英语词性标注中名词与动词歧义问题。尽管自2002年以来,词性标注器在WSJ Penn Treebank上的准确率已达到97%以上,但在处理名词与动词歧义时仍存在显著错误。这些错误不仅影响标注器的性能,还对其下游任务如翻译和文本转语音合成产生负面影响。该数据集包含自然语言中的句子,每个句子中均包含一个手动标注为动词或非动词的词汇,涵盖了多个领域的文本。通过提供训练、开发和测试集,Noun Verb Dataset为研究者和开发者提供了一个量化并改进词性标注器性能的工具,推动了自然语言处理领域的发展。
当前挑战
Noun Verb Dataset面临的挑战主要体现在两个方面。首先,名词与动词歧义问题本身具有高度复杂性,尤其是在多义词和上下文依赖的情况下,标注器难以准确区分词汇的词性。尽管现有标注器在标准数据集上表现优异,但在处理此类歧义时仍存在显著错误,影响了其在实际应用中的可靠性。其次,在数据集的构建过程中,研究人员需要从多个领域收集自然语言句子,并手动标注每个句子中的歧义词,这一过程不仅耗时耗力,还要求标注者具备较高的语言学知识。此外,为了确保数据集的多样性和代表性,研究人员还需平衡不同领域和语境下的句子分布,进一步增加了数据集的构建难度。
常用场景
经典使用场景
Noun Verb Dataset 主要用于评估和改进英语词性标注器在处理名词-动词歧义时的性能。该数据集通过提供大量自然语言句子,其中包含手动标注的名词和动词,帮助研究人员测试和优化标注器在复杂语境下的表现。
实际应用
在实际应用中,Noun Verb Dataset 被广泛用于开发和测试自然语言处理系统,特别是在需要高精度词性标注的场景中。例如,在机器翻译系统中,准确的词性标注对于理解句子结构和生成正确的翻译至关重要。此外,该数据集还被用于语音合成系统,以确保生成的语音在语法和语义上的准确性。
衍生相关工作
基于 Noun Verb Dataset,研究人员开发了多种改进的词性标注模型和方法。例如,结合上下文嵌入(如ELMo)和银标准数据的模型显著提高了在名词-动词歧义任务上的表现。这些工作不仅推动了词性标注技术的发展,还为其他自然语言处理任务提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作