NtoN Construction Dataset

Name: NtoN Construction Dataset
Creator: 乔治城大学
Published: 2025-03-24 22:59:39
License: 暂无描述

arXiv2025-03-24 更新2025-03-28 收录

下载链接：

http://arxiv.org/abs/2503.18751v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是针对英语中的NtoN结构（即名词+介词+名词）构建的，由乔治城大学的研究者创建。数据集包含了从COCA中提取的6599个实例，涵盖了两种语义类型：连续性和并置性。数据集在构建过程中，研究者通过固定窗口提取、分词、排除干扰项等步骤，最终形成了经过人工标注的、用于研究BERT模型对NtoN结构理解能力的数据集。该数据集旨在解决自然语言处理中对特定语言结构理解的问题。

This dataset was constructed for the N-to-N structure in English (i.e., Noun + Preposition + Noun) and was developed by researchers from Georgetown University. It contains 6599 instances extracted from COCA, covering two semantic types: continuity and juxtaposition. During the construction process, researchers adopted steps including fixed-window extraction, tokenization, and interference item elimination, and finally formed a manually annotated dataset for investigating BERT's ability to understand the N-to-N structure. This dataset aims to address the issue of understanding specific linguistic structures in natural language processing.

提供机构：

乔治城大学

创建时间：

2025-03-24

搜集汇总

数据集介绍

构建方式

NtoN Construction Dataset的构建基于美国当代英语语料库（COCA），通过模式匹配查询提取Noun + 'to' + Noun序列的实例。研究团队采用Stanza工具进行句子分割和NtoN实例提取，并手动清理数据，排除过短或含有过多拼写错误的句子。为确保数据质量，所有实例均经过语义子类型标注，并进行了双重标注，达成84%的标注一致性。最终数据集包含6599个NtoN实例，其中1885个经过双重标注。此外，还收集了456个NtoN干扰项实例，用于构建近最小对。

特点

NtoN Construction Dataset的特点在于其专注于英语中的NPN（名词-介词-名词）结构，特别是以'to'为介词的NtoN子类型。该数据集不仅包含真实的NtoN构造实例，还包括语义相近的干扰项实例，为研究语言模型对构造形式的敏感性提供了丰富材料。数据集中NtoN构造实例进一步细分为SUCCESSION和JUXTAPOSITION两种语义子类型，为语义消歧任务提供了基础。数据集通过控制名词词元在训练集和测试集中的分布，有效减少了常见词元对模型性能的过度影响。

使用方法

NtoN Construction Dataset的使用方法主要包括三个方面：首先，通过线性探测分类器评估BERT等语言模型区分真实NtoN构造实例与干扰项实例的能力；其次，通过词序扰动实验测试模型对构造形式的敏感性；最后，进行语义消歧任务，区分NtoN构造的SUCCESSION和JUXTAPOSITION两种语义子类型。研究团队采用了控制分类器和基于GloVe嵌入的非上下文基线系统，为模型性能评估提供了参照标准。数据集按名词词元划分训练集和测试集，确保没有词元在训练和测试阶段重叠，从而更准确地评估模型的泛化能力。

背景与挑战

背景概述

NtoN Construction Dataset是由乔治城大学的Wesley Scivetti和Nathan Schneider等研究人员于2025年创建的，旨在研究英语中的NPN（名词-介词-名词）结构。该数据集基于美国当代英语语料库（COCA）构建，包含6599个NtoN结构实例，并标注了其语义子类型（如SUCCESSION和JUXTAPOSITION）。NPN结构是英语中一种特殊且多义的语法模式，例如“face to face”和“day to day”。该数据集的创建填补了语言模型在理解和处理多义结构方面的研究空白，为探究BERT等语言模型是否能够隐式编码此类结构的知识提供了重要资源。

当前挑战

NtoN Construction Dataset面临的挑战主要包括两方面：1) 领域问题的挑战：NPN结构的多义性使得模型需要区分不同的语义子类型（如SUCCESSION和JUXTAPOSITION），同时还需将真正的NPN结构与表面相似但语法不同的干扰项区分开。2) 构建过程中的挑战：数据集的构建依赖于自然语料库中的实例，需要通过复杂的模式匹配和人工标注来识别和清理数据。此外，为了确保模型的泛化能力，研究人员还需控制训练和测试集中的词汇重叠，避免模型过度依赖特定词汇的语义线索。

常用场景

经典使用场景

NtoN Construction Dataset在自然语言处理领域中被广泛用于研究英语中的名词-介词-名词（NPN）结构，特别是NtoN（名词-to-名词）子类型的语义和形式特征。该数据集通过从当代美国英语语料库（COCA）中提取真实语料实例，并标注其语义子类型（如SUCCESSION和JUXTAPOSITION），为研究者提供了一个可靠的基准数据集。经典使用场景包括训练和评估探测分类器，以区分真实的NtoN构造实例与表面相似但非构造实例的干扰项。

衍生相关工作

NtoN Construction Dataset衍生了一系列相关研究，包括对语言模型中构造知识的进一步探索。例如，Weissweiler等人（2022）研究了比较相关构造（Comparative Correlative Construction）的模型表现，而Mahowald（2023）则探讨了GPT-3对Article+Adjective+Numeral+Noun（AANN）构造的接受性判断。这些研究共同推动了语言模型与构造语法理论的交叉研究，为理解模型的内部表示提供了新的视角。

数据集最近研究