British National Corpus (BNC)

www.natcorp.ox.ac.uk2024-10-25 收录

下载链接：

http://www.natcorp.ox.ac.uk/

下载链接

链接失效反馈

加速链接：

金山云加速下载

资源简介：

British National Corpus (BNC) 是一个包含约一亿字的大型文本语料库，涵盖了20世纪后期英国英语的广泛样本。它包括书面和口语材料，旨在代表现代英国英语的多样性。

The British National Corpus (BNC) is a large-scale textual corpus containing approximately 100 million words. It covers a comprehensive sample of late 20th-century British English, includes both written and spoken materials, and is designed to represent the diversity of modern British English.

提供机构：

www.natcorp.ox.ac.uk

搜集汇总

数据集介绍

构建方式

British National Corpus (BNC) 数据集的构建始于1991年，历时五年完成。该数据集由英国学术界、出版界和广播界的专家共同合作，旨在收集和编纂一个全面反映20世纪末英国英语使用情况的语料库。构建过程中，研究团队采用了随机抽样方法，从不同类型的文本中选取样本，包括书面语和口语，涵盖了从正式文学作品到日常对话的广泛领域。此外，数据集还特别关注了不同社会阶层和年龄段的语言使用差异，确保了语料的多样性和代表性。

特点

BNC 数据集以其广泛性和多样性著称，包含了超过一亿字的文本，涵盖了书面语和口语的各个方面。该数据集不仅包括了文学作品、学术论文和新闻报道等正式文本，还收录了电话对话、广播节目和日常交流等非正式语言。这种多样性使得BNC成为研究语言变化、语体差异和社会语言学现象的重要资源。此外，BNC的文本标注系统也极为详尽，提供了词性、句法结构和语义信息等多层次的分析，为语言学研究提供了丰富的数据支持。

使用方法

BNC 数据集主要用于语言学研究，包括但不限于词汇学、语法学、语义学和社会语言学等领域。研究者可以通过访问BNC的在线平台或下载数据集进行本地分析，利用其丰富的文本和标注信息进行定量和定性研究。例如，研究者可以分析特定词汇的使用频率和分布，探讨不同语体之间的语法差异，或研究社会语言变异现象。此外，BNC还支持跨学科研究，如计算语言学和自然语言处理，为机器学习和语言模型训练提供了宝贵的语料资源。

背景与挑战

背景概述

British National Corpus (BNC) 是由英国语言学家和计算机科学家在20世纪90年代中期共同开发的一个大型文本语料库，旨在为语言学研究提供一个全面且多样化的资源。该数据集由牛津大学出版社和兰卡斯特大学联合创建，包含了超过一亿个单词的文本，涵盖了从口语对话到书面文学作品的广泛领域。BNC的构建标志着语言学研究进入了一个新的时代，它不仅为语言学家提供了丰富的研究材料，还为自然语言处理和计算语言学的发展奠定了基础。通过BNC，研究者们能够更深入地探讨语言的结构、使用和变化，从而推动了语言学理论和应用的进步。

当前挑战

尽管BNC在语言学研究中具有重要地位，但其构建过程中也面临了诸多挑战。首先，数据集的多样性要求从不同来源收集大量文本，这涉及到版权和伦理问题。其次，文本的标注和分类需要大量的人力和时间，以确保数据的准确性和一致性。此外，随着时间的推移，语言的使用和变化使得BNC的数据可能逐渐过时，需要定期更新和扩展。最后，如何有效地管理和检索如此大规模的语料库，以满足不同研究需求，也是一个技术上的挑战。这些挑战不仅影响了BNC的构建，也对其后续的应用和维护提出了持续的要求。

发展历史

创建时间与更新

British National Corpus (BNC) 创建于1991年至1994年间，由英国牛津大学出版社主导开发。该数据集在2007年进行了更新，引入了新的文本资源，以反映语言的最新变化。

重要里程碑

BNC的创建标志着大规模英语语料库的诞生，为语言学研究提供了丰富的资源。其首次发布后，迅速成为语言学、教育学和计算机科学等领域的重要工具。2007年的更新进一步扩展了其应用范围，特别是在自然语言处理和机器学习领域，为研究人员提供了更为多样化的语言样本。

当前发展情况

当前，BNC已成为全球范围内语言研究的基础数据集之一，广泛应用于语言模型训练、文本分析和语言教学等多个领域。其持续的更新和扩展，确保了数据集的时效性和多样性，为相关领域的研究提供了坚实的数据支持。此外，BNC的开源性质也促进了全球研究者的合作与交流，推动了语言科学的进步。

发展历程

British National Corpus (BNC) 项目正式启动，旨在创建一个包含现代英语口语和书面语的大型语料库。
1991年
BNC 完成初步构建，包含约一亿词的文本数据，涵盖了从1960年代到1993年的语言材料。
1994年
BNC 正式发布，成为语言学研究、自然语言处理和教育领域的重要资源。
1995年
BNC 进行了第一次重大更新，增加了新的文本材料，使其总词量达到一亿零一百万。
2001年
BNC World 版本发布，这是一个在线版本的BNC，提供了更便捷的访问和搜索功能。
2007年
BNC XML Edition 发布，该版本提供了更丰富的元数据和结构化数据，便于更深入的语言分析。
2019年

常用场景

经典使用场景

在语言学研究领域，British National Corpus (BNC) 数据集被广泛用于分析英语的词汇、语法和语用特征。研究者利用BNC中的丰富文本资源，进行词频统计、搭配分析以及语料库驱动的语言模型构建。这些分析不仅有助于理解现代英语的多样性，还为语言教学和自然语言处理提供了宝贵的数据支持。

衍生相关工作

基于BNC数据集，许多后续研究工作得以展开，如COCA（Corpus of Contemporary American English）和ICE（International Corpus of English）等大型语料库的建设。这些工作进一步扩展了语料库语言学的研究范围，促进了全球范围内英语变体的比较研究。此外，BNC还激发了大量关于语料库方法论和数据分析技术的研究，推动了语言学研究方法的创新。

数据集最近研究