five

British National Corpus (BNC)|语言学数据集|语料库数据集

收藏
www.natcorp.ox.ac.uk2024-10-25 收录
语言学
语料库
下载链接:
http://www.natcorp.ox.ac.uk/
下载链接
链接失效反馈
资源简介:
British National Corpus (BNC) 是一个包含约一亿字的大型文本语料库,涵盖了20世纪后期英国英语的广泛样本。它包括书面和口语材料,旨在代表现代英国英语的多样性。
提供机构:
www.natcorp.ox.ac.uk
AI搜集汇总
数据集介绍
main_image_url
构建方式
British National Corpus (BNC) 数据集的构建始于1991年,历时五年完成。该数据集由英国学术界、出版界和广播界的专家共同合作,旨在收集和编纂一个全面反映20世纪末英国英语使用情况的语料库。构建过程中,研究团队采用了随机抽样方法,从不同类型的文本中选取样本,包括书面语和口语,涵盖了从正式文学作品到日常对话的广泛领域。此外,数据集还特别关注了不同社会阶层和年龄段的语言使用差异,确保了语料的多样性和代表性。
特点
BNC 数据集以其广泛性和多样性著称,包含了超过一亿字的文本,涵盖了书面语和口语的各个方面。该数据集不仅包括了文学作品、学术论文和新闻报道等正式文本,还收录了电话对话、广播节目和日常交流等非正式语言。这种多样性使得BNC成为研究语言变化、语体差异和社会语言学现象的重要资源。此外,BNC的文本标注系统也极为详尽,提供了词性、句法结构和语义信息等多层次的分析,为语言学研究提供了丰富的数据支持。
使用方法
BNC 数据集主要用于语言学研究,包括但不限于词汇学、语法学、语义学和社会语言学等领域。研究者可以通过访问BNC的在线平台或下载数据集进行本地分析,利用其丰富的文本和标注信息进行定量和定性研究。例如,研究者可以分析特定词汇的使用频率和分布,探讨不同语体之间的语法差异,或研究社会语言变异现象。此外,BNC还支持跨学科研究,如计算语言学和自然语言处理,为机器学习和语言模型训练提供了宝贵的语料资源。
背景与挑战
背景概述
British National Corpus (BNC) 是由英国语言学家和计算机科学家在20世纪90年代中期共同开发的一个大型文本语料库,旨在为语言学研究提供一个全面且多样化的资源。该数据集由牛津大学出版社和兰卡斯特大学联合创建,包含了超过一亿个单词的文本,涵盖了从口语对话到书面文学作品的广泛领域。BNC的构建标志着语言学研究进入了一个新的时代,它不仅为语言学家提供了丰富的研究材料,还为自然语言处理和计算语言学的发展奠定了基础。通过BNC,研究者们能够更深入地探讨语言的结构、使用和变化,从而推动了语言学理论和应用的进步。
当前挑战
尽管BNC在语言学研究中具有重要地位,但其构建过程中也面临了诸多挑战。首先,数据集的多样性要求从不同来源收集大量文本,这涉及到版权和伦理问题。其次,文本的标注和分类需要大量的人力和时间,以确保数据的准确性和一致性。此外,随着时间的推移,语言的使用和变化使得BNC的数据可能逐渐过时,需要定期更新和扩展。最后,如何有效地管理和检索如此大规模的语料库,以满足不同研究需求,也是一个技术上的挑战。这些挑战不仅影响了BNC的构建,也对其后续的应用和维护提出了持续的要求。
发展历史
创建时间与更新
British National Corpus (BNC) 创建于1991年至1994年间,由英国牛津大学出版社主导开发。该数据集在2007年进行了更新,引入了新的文本资源,以反映语言的最新变化。
重要里程碑
BNC的创建标志着大规模英语语料库的诞生,为语言学研究提供了丰富的资源。其首次发布后,迅速成为语言学、教育学和计算机科学等领域的重要工具。2007年的更新进一步扩展了其应用范围,特别是在自然语言处理和机器学习领域,为研究人员提供了更为多样化的语言样本。
当前发展情况
当前,BNC已成为全球范围内语言研究的基础数据集之一,广泛应用于语言模型训练、文本分析和语言教学等多个领域。其持续的更新和扩展,确保了数据集的时效性和多样性,为相关领域的研究提供了坚实的数据支持。此外,BNC的开源性质也促进了全球研究者的合作与交流,推动了语言科学的进步。
发展历程
  • British National Corpus (BNC) 项目正式启动,旨在创建一个包含现代英语口语和书面语的大型语料库。
    1991年
  • BNC 完成初步构建,包含约一亿词的文本数据,涵盖了从1960年代到1993年的语言材料。
    1994年
  • BNC 正式发布,成为语言学研究、自然语言处理和教育领域的重要资源。
    1995年
  • BNC 进行了第一次重大更新,增加了新的文本材料,使其总词量达到一亿零一百万。
    2001年
  • BNC World 版本发布,这是一个在线版本的BNC,提供了更便捷的访问和搜索功能。
    2007年
  • BNC XML Edition 发布,该版本提供了更丰富的元数据和结构化数据,便于更深入的语言分析。
    2019年
常用场景
经典使用场景
在语言学研究领域,British National Corpus (BNC) 数据集被广泛用于分析英语的词汇、语法和语用特征。研究者利用BNC中的丰富文本资源,进行词频统计、搭配分析以及语料库驱动的语言模型构建。这些分析不仅有助于理解现代英语的多样性,还为语言教学和自然语言处理提供了宝贵的数据支持。
衍生相关工作
基于BNC数据集,许多后续研究工作得以展开,如COCA(Corpus of Contemporary American English)和ICE(International Corpus of English)等大型语料库的建设。这些工作进一步扩展了语料库语言学的研究范围,促进了全球范围内英语变体的比较研究。此外,BNC还激发了大量关于语料库方法论和数据分析技术的研究,推动了语言学研究方法的创新。
数据集最近研究
最新研究方向
在语言学和计算语言学领域,British National Corpus (BNC) 作为经典的大型语料库,近年来研究方向主要集中在多语言对比分析、语义网络构建以及自然语言处理技术的应用上。研究者们利用BNC丰富的语料资源,探索不同语言间的语义差异,构建跨语言的语义网络,以提升机器翻译和跨文化交流的准确性。此外,BNC还被广泛应用于深度学习模型的训练,特别是在预训练语言模型中,其高质量的文本数据为模型的性能提升提供了坚实基础。这些研究不仅推动了语言学理论的发展,也为实际应用如智能客服、自动翻译等领域带来了显著的技术进步。
相关研究论文
  • 1
    The British National Corpus: Its History, Development and UseOxford University Press · 2007年
  • 2
    The British National Corpus: A Critical AssessmentTaylor & Francis · 2010年
  • 3
    Using the British National Corpus in Language ResearchCambridge University Press · 2015年
  • 4
    The British National Corpus as a Resource for Historical LinguisticsDe Gruyter · 2018年
  • 5
    Exploring the British National Corpus for Corpus-Based Translation StudiesTaylor & Francis · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

UCI Wine

UCI Wine数据集包含了178个样本,每个样本有13个特征,用于分类任务。这些特征包括葡萄酒的化学成分,如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。

archive.ics.uci.edu 收录