five

British National Corpus (BNC)

收藏
www.natcorp.ox.ac.uk2024-10-25 收录
下载链接:
http://www.natcorp.ox.ac.uk/
下载链接
链接失效反馈
加速链接:
资源简介:
British National Corpus (BNC) 是一个包含约一亿字的大型文本语料库,涵盖了20世纪后期英国英语的广泛样本。它包括书面和口语材料,旨在代表现代英国英语的多样性。

The British National Corpus (BNC) is a large-scale textual corpus containing approximately 100 million words. It covers a comprehensive sample of late 20th-century British English, includes both written and spoken materials, and is designed to represent the diversity of modern British English.
提供机构:
www.natcorp.ox.ac.uk
搜集汇总
数据集介绍
main_image_url
构建方式
British National Corpus (BNC) 数据集的构建始于1991年,历时五年完成。该数据集由英国学术界、出版界和广播界的专家共同合作,旨在收集和编纂一个全面反映20世纪末英国英语使用情况的语料库。构建过程中,研究团队采用了随机抽样方法,从不同类型的文本中选取样本,包括书面语和口语,涵盖了从正式文学作品到日常对话的广泛领域。此外,数据集还特别关注了不同社会阶层和年龄段的语言使用差异,确保了语料的多样性和代表性。
特点
BNC 数据集以其广泛性和多样性著称,包含了超过一亿字的文本,涵盖了书面语和口语的各个方面。该数据集不仅包括了文学作品、学术论文和新闻报道等正式文本,还收录了电话对话、广播节目和日常交流等非正式语言。这种多样性使得BNC成为研究语言变化、语体差异和社会语言学现象的重要资源。此外,BNC的文本标注系统也极为详尽,提供了词性、句法结构和语义信息等多层次的分析,为语言学研究提供了丰富的数据支持。
使用方法
BNC 数据集主要用于语言学研究,包括但不限于词汇学、语法学、语义学和社会语言学等领域。研究者可以通过访问BNC的在线平台或下载数据集进行本地分析,利用其丰富的文本和标注信息进行定量和定性研究。例如,研究者可以分析特定词汇的使用频率和分布,探讨不同语体之间的语法差异,或研究社会语言变异现象。此外,BNC还支持跨学科研究,如计算语言学和自然语言处理,为机器学习和语言模型训练提供了宝贵的语料资源。
背景与挑战
背景概述
British National Corpus (BNC) 是由英国语言学家和计算机科学家在20世纪90年代中期共同开发的一个大型文本语料库,旨在为语言学研究提供一个全面且多样化的资源。该数据集由牛津大学出版社和兰卡斯特大学联合创建,包含了超过一亿个单词的文本,涵盖了从口语对话到书面文学作品的广泛领域。BNC的构建标志着语言学研究进入了一个新的时代,它不仅为语言学家提供了丰富的研究材料,还为自然语言处理和计算语言学的发展奠定了基础。通过BNC,研究者们能够更深入地探讨语言的结构、使用和变化,从而推动了语言学理论和应用的进步。
当前挑战
尽管BNC在语言学研究中具有重要地位,但其构建过程中也面临了诸多挑战。首先,数据集的多样性要求从不同来源收集大量文本,这涉及到版权和伦理问题。其次,文本的标注和分类需要大量的人力和时间,以确保数据的准确性和一致性。此外,随着时间的推移,语言的使用和变化使得BNC的数据可能逐渐过时,需要定期更新和扩展。最后,如何有效地管理和检索如此大规模的语料库,以满足不同研究需求,也是一个技术上的挑战。这些挑战不仅影响了BNC的构建,也对其后续的应用和维护提出了持续的要求。
发展历史
创建时间与更新
British National Corpus (BNC) 创建于1991年至1994年间,由英国牛津大学出版社主导开发。该数据集在2007年进行了更新,引入了新的文本资源,以反映语言的最新变化。
重要里程碑
BNC的创建标志着大规模英语语料库的诞生,为语言学研究提供了丰富的资源。其首次发布后,迅速成为语言学、教育学和计算机科学等领域的重要工具。2007年的更新进一步扩展了其应用范围,特别是在自然语言处理和机器学习领域,为研究人员提供了更为多样化的语言样本。
当前发展情况
当前,BNC已成为全球范围内语言研究的基础数据集之一,广泛应用于语言模型训练、文本分析和语言教学等多个领域。其持续的更新和扩展,确保了数据集的时效性和多样性,为相关领域的研究提供了坚实的数据支持。此外,BNC的开源性质也促进了全球研究者的合作与交流,推动了语言科学的进步。
发展历程
  • British National Corpus (BNC) 项目正式启动,旨在创建一个包含现代英语口语和书面语的大型语料库。
    1991年
  • BNC 完成初步构建,包含约一亿词的文本数据,涵盖了从1960年代到1993年的语言材料。
    1994年
  • BNC 正式发布,成为语言学研究、自然语言处理和教育领域的重要资源。
    1995年
  • BNC 进行了第一次重大更新,增加了新的文本材料,使其总词量达到一亿零一百万。
    2001年
  • BNC World 版本发布,这是一个在线版本的BNC,提供了更便捷的访问和搜索功能。
    2007年
  • BNC XML Edition 发布,该版本提供了更丰富的元数据和结构化数据,便于更深入的语言分析。
    2019年
常用场景
经典使用场景
在语言学研究领域,British National Corpus (BNC) 数据集被广泛用于分析英语的词汇、语法和语用特征。研究者利用BNC中的丰富文本资源,进行词频统计、搭配分析以及语料库驱动的语言模型构建。这些分析不仅有助于理解现代英语的多样性,还为语言教学和自然语言处理提供了宝贵的数据支持。
衍生相关工作
基于BNC数据集,许多后续研究工作得以展开,如COCA(Corpus of Contemporary American English)和ICE(International Corpus of English)等大型语料库的建设。这些工作进一步扩展了语料库语言学的研究范围,促进了全球范围内英语变体的比较研究。此外,BNC还激发了大量关于语料库方法论和数据分析技术的研究,推动了语言学研究方法的创新。
数据集最近研究
最新研究方向
在语言学和计算语言学领域,British National Corpus (BNC) 作为经典的大型语料库,近年来研究方向主要集中在多语言对比分析、语义网络构建以及自然语言处理技术的应用上。研究者们利用BNC丰富的语料资源,探索不同语言间的语义差异,构建跨语言的语义网络,以提升机器翻译和跨文化交流的准确性。此外,BNC还被广泛应用于深度学习模型的训练,特别是在预训练语言模型中,其高质量的文本数据为模型的性能提升提供了坚实基础。这些研究不仅推动了语言学理论的发展,也为实际应用如智能客服、自动翻译等领域带来了显著的技术进步。
相关研究论文
  • 1
    The British National Corpus: Its History, Development and UseOxford University Press · 2007年
  • 2
    The British National Corpus: A Critical AssessmentTaylor & Francis · 2010年
  • 3
    Using the British National Corpus in Language ResearchCambridge University Press · 2015年
  • 4
    The British National Corpus as a Resource for Historical LinguisticsDe Gruyter · 2018年
  • 5
    Exploring the British National Corpus for Corpus-Based Translation StudiesTaylor & Francis · 2020年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作