five

British National Corpus (BNC)|语言学数据集|语料库数据集

收藏
www.natcorp.ox.ac.uk2024-10-25 收录
语言学
语料库
下载链接:
http://www.natcorp.ox.ac.uk/
下载链接
链接失效反馈
资源简介:
British National Corpus (BNC) 是一个包含约一亿字的大型文本语料库,涵盖了20世纪后期英国英语的广泛样本。它包括书面和口语材料,旨在代表现代英国英语的多样性。
提供机构:
www.natcorp.ox.ac.uk
AI搜集汇总
数据集介绍
main_image_url
构建方式
British National Corpus (BNC) 数据集的构建始于1991年,历时五年完成。该数据集由英国学术界、出版界和广播界的专家共同合作,旨在收集和编纂一个全面反映20世纪末英国英语使用情况的语料库。构建过程中,研究团队采用了随机抽样方法,从不同类型的文本中选取样本,包括书面语和口语,涵盖了从正式文学作品到日常对话的广泛领域。此外,数据集还特别关注了不同社会阶层和年龄段的语言使用差异,确保了语料的多样性和代表性。
特点
BNC 数据集以其广泛性和多样性著称,包含了超过一亿字的文本,涵盖了书面语和口语的各个方面。该数据集不仅包括了文学作品、学术论文和新闻报道等正式文本,还收录了电话对话、广播节目和日常交流等非正式语言。这种多样性使得BNC成为研究语言变化、语体差异和社会语言学现象的重要资源。此外,BNC的文本标注系统也极为详尽,提供了词性、句法结构和语义信息等多层次的分析,为语言学研究提供了丰富的数据支持。
使用方法
BNC 数据集主要用于语言学研究,包括但不限于词汇学、语法学、语义学和社会语言学等领域。研究者可以通过访问BNC的在线平台或下载数据集进行本地分析,利用其丰富的文本和标注信息进行定量和定性研究。例如,研究者可以分析特定词汇的使用频率和分布,探讨不同语体之间的语法差异,或研究社会语言变异现象。此外,BNC还支持跨学科研究,如计算语言学和自然语言处理,为机器学习和语言模型训练提供了宝贵的语料资源。
背景与挑战
背景概述
British National Corpus (BNC) 是由英国语言学家和计算机科学家在20世纪90年代中期共同开发的一个大型文本语料库,旨在为语言学研究提供一个全面且多样化的资源。该数据集由牛津大学出版社和兰卡斯特大学联合创建,包含了超过一亿个单词的文本,涵盖了从口语对话到书面文学作品的广泛领域。BNC的构建标志着语言学研究进入了一个新的时代,它不仅为语言学家提供了丰富的研究材料,还为自然语言处理和计算语言学的发展奠定了基础。通过BNC,研究者们能够更深入地探讨语言的结构、使用和变化,从而推动了语言学理论和应用的进步。
当前挑战
尽管BNC在语言学研究中具有重要地位,但其构建过程中也面临了诸多挑战。首先,数据集的多样性要求从不同来源收集大量文本,这涉及到版权和伦理问题。其次,文本的标注和分类需要大量的人力和时间,以确保数据的准确性和一致性。此外,随着时间的推移,语言的使用和变化使得BNC的数据可能逐渐过时,需要定期更新和扩展。最后,如何有效地管理和检索如此大规模的语料库,以满足不同研究需求,也是一个技术上的挑战。这些挑战不仅影响了BNC的构建,也对其后续的应用和维护提出了持续的要求。
发展历史
创建时间与更新
British National Corpus (BNC) 创建于1991年至1994年间,由英国牛津大学出版社主导开发。该数据集在2007年进行了更新,引入了新的文本资源,以反映语言的最新变化。
重要里程碑
BNC的创建标志着大规模英语语料库的诞生,为语言学研究提供了丰富的资源。其首次发布后,迅速成为语言学、教育学和计算机科学等领域的重要工具。2007年的更新进一步扩展了其应用范围,特别是在自然语言处理和机器学习领域,为研究人员提供了更为多样化的语言样本。
当前发展情况
当前,BNC已成为全球范围内语言研究的基础数据集之一,广泛应用于语言模型训练、文本分析和语言教学等多个领域。其持续的更新和扩展,确保了数据集的时效性和多样性,为相关领域的研究提供了坚实的数据支持。此外,BNC的开源性质也促进了全球研究者的合作与交流,推动了语言科学的进步。
发展历程
  • British National Corpus (BNC) 项目正式启动,旨在创建一个包含现代英语口语和书面语的大型语料库。
    1991年
  • BNC 完成初步构建,包含约一亿词的文本数据,涵盖了从1960年代到1993年的语言材料。
    1994年
  • BNC 正式发布,成为语言学研究、自然语言处理和教育领域的重要资源。
    1995年
  • BNC 进行了第一次重大更新,增加了新的文本材料,使其总词量达到一亿零一百万。
    2001年
  • BNC World 版本发布,这是一个在线版本的BNC,提供了更便捷的访问和搜索功能。
    2007年
  • BNC XML Edition 发布,该版本提供了更丰富的元数据和结构化数据,便于更深入的语言分析。
    2019年
常用场景
经典使用场景
在语言学研究领域,British National Corpus (BNC) 数据集被广泛用于分析英语的词汇、语法和语用特征。研究者利用BNC中的丰富文本资源,进行词频统计、搭配分析以及语料库驱动的语言模型构建。这些分析不仅有助于理解现代英语的多样性,还为语言教学和自然语言处理提供了宝贵的数据支持。
衍生相关工作
基于BNC数据集,许多后续研究工作得以展开,如COCA(Corpus of Contemporary American English)和ICE(International Corpus of English)等大型语料库的建设。这些工作进一步扩展了语料库语言学的研究范围,促进了全球范围内英语变体的比较研究。此外,BNC还激发了大量关于语料库方法论和数据分析技术的研究,推动了语言学研究方法的创新。
数据集最近研究
最新研究方向
在语言学和计算语言学领域,British National Corpus (BNC) 作为经典的大型语料库,近年来研究方向主要集中在多语言对比分析、语义网络构建以及自然语言处理技术的应用上。研究者们利用BNC丰富的语料资源,探索不同语言间的语义差异,构建跨语言的语义网络,以提升机器翻译和跨文化交流的准确性。此外,BNC还被广泛应用于深度学习模型的训练,特别是在预训练语言模型中,其高质量的文本数据为模型的性能提升提供了坚实基础。这些研究不仅推动了语言学理论的发展,也为实际应用如智能客服、自动翻译等领域带来了显著的技术进步。
相关研究论文
  • 1
    The British National Corpus: Its History, Development and UseOxford University Press · 2007年
  • 2
    The British National Corpus: A Critical AssessmentTaylor & Francis · 2010年
  • 3
    Using the British National Corpus in Language ResearchCambridge University Press · 2015年
  • 4
    The British National Corpus as a Resource for Historical LinguisticsDe Gruyter · 2018年
  • 5
    Exploring the British National Corpus for Corpus-Based Translation StudiesTaylor & Francis · 2020年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录