British National Corpus
收藏arXiv2025-06-06 更新2025-06-11 收录
下载链接:
https://github.com/jwalanthi/semantic-features
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是英国国家语料库,包含450对句子,用于研究语言模型是否能够捕捉到双宾语结构和介词宾语结构中受词的语义差异。数据集中的句子经过人工评估,确保在双宾语结构中受词被解释为人物,而在介词宾语结构中受词被解释为地点。这些数据被用于训练和评估语义特征库中的模型,该库可以投影上下文词嵌入到语义空间中,并分析语义解释的变化。
This dataset, derived from the British National Corpus, consists of 450 sentence pairs, and is developed to investigate whether language models can capture the semantic differences between the relevant objects in double-object constructions and prepositional-object constructions. All sentences in this dataset have been manually evaluated to ensure that the object in double-object constructions is interpreted as a person, while the object in prepositional-object constructions is interpreted as a location. These data are utilized to train and evaluate models within the semantic feature library, which can project contextual word embeddings into the semantic space and analyze variations in semantic interpretations.
提供机构:
德克萨斯大学奥斯汀分校, 芝加哥丰田技术研究所
创建时间:
2025-06-06
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,语料库的构建质量直接影响语言模型的训练效果。British National Corpus作为代表性语料库,其构建过程体现了严谨的语言学方法论。该数据集通过系统采集当代英国英语的书面语和口语材料,采用分层抽样策略确保语料覆盖报纸、学术期刊、小说、会话等多种文体。语料标注采用先进的XML标记体系,包含词性标注、句法分析等多层次语言学信息,所有文本均经过严格的标准化处理和元数据标注,确保数据的一致性和可追溯性。
特点
该语料库最显著的特点是其实证性与平衡性。包含超过1亿词次的真实语言使用实例,精确反映了20世纪末至21世纪初英国英语的演变趋势。语料设计注重文体、领域和时间的均衡分布,特别强化了口语语料的收录比例。所有文本都经过专业的语言学标注,支持复杂的语料检索和分析。独特的语境信息标注体系为研究词语的语境化语义提供了丰富资源,使其成为研究英语语法、语义和语用特征的理想数据源。
使用方法
该数据集支持多样化的研究应用。在技术实现层面,研究者可通过专用查询系统CQP进行复杂的语料检索,支持基于正则表达式的词汇检索和语法模式匹配。对于语言模型训练,建议先进行数据清洗和标准化处理,特别注意处理语料中的标记符号和元数据。在语义特征分析方面,可结合BERT等预训练模型提取上下文词向量,通过设计的特征投影方法将词向量映射到可解释的语义空间。数据集配套的文档详细说明了不同子库的使用规范和伦理限制,研究者应根据具体研究目标选择合适的子集。
背景与挑战
背景概述
British National Corpus(BNC)作为语言学与计算语言学研究的重要语料库,由牛津大学出版社、朗文出版社等机构于1994年联合创建,收录了1亿词规模的书面语和口语文本,系统标注了词性、句法等多元语言特征。该语料库的构建标志着语料驱动研究范式的确立,为词汇语义学、语法理论验证及语言模型训练提供了基准数据集,特别是在探讨英语与格交替等句法-语义接口问题时,BNC的语境多样性为研究者提供了丰富的实证基础。
当前挑战
BNC面临的挑战主要体现在两方面:在领域问题层面,尽管其规模庞大,但语料时效性局限于20世纪后期,难以捕捉当代语言演变特征,尤其在新兴词汇用法和社交媒体语言表征方面存在空白;在构建技术层面,原始语料的异构数据整合(如口语转写与书面文本的标准化处理)曾面临标注一致性难题,且多义词在具体语境中的语义消歧依赖人工校验,这种高成本标注模式制约了语料库的扩展性。当前研究需解决如何将传统语料库与动态上下文嵌入模型有效结合,以提升对构式语义敏感性的量化分析能力。
常用场景
经典使用场景
British National Corpus (BNC) 作为大规模平衡语料库的典范,在计算语言学研究领域常被用于构建上下文词嵌入模型。其经典应用场景体现在通过提取词汇在不同语境中的分布式表征,训练神经网络将BERT等模型的嵌入向量映射至可解释的语义特征空间。这种映射使得研究者能够定量分析构式语法中诸如与格交替等现象对词汇语义的语境化影响,例如量化'London'在双宾语结构与介词宾语结构中呈现的[+生命性]特征差异。
解决学术问题
该数据集有效解决了语义特征量化研究的核心难题:如何建立形式化模型捕捉语境敏感的词汇语义变化。通过将BNC语料与Binder等人定义的语义特征规范相结合,研究者能够验证语言模型是否习得了与格结构中接受者论元的生命性偏好——双宾语构式更倾向激活[+生物运动][+人脸]等生命特征,而介词宾语构式则强化[+地标][+场景]等空间特征。这种基于大规模语料的实证分析为构式语法理论提供了计算语言学证据。
衍生相关工作
BNC衍生的研究脉络显著推动了可解释语义分析的发展。Chronis等人开创的语境嵌入映射方法被扩展应用于语法角色分析,Hawkins团队基于BNC构建了与格交替平衡数据集。近期Jumelet等通过该语料发现语言模型存在类似人类的结构启动效应,Yao则验证了直接与间接证据对模型构式偏好的协同影响。这些工作共同构成了当代分布语义学与构式语法交叉研究的重要范式。
以上内容由遇见数据集搜集并总结生成



