Brown Corpus|语言学数据集|英语语料库数据集

kaggle2018-10-19 更新2024-03-08 收录

语言学

英语语料库

下载链接：

https://www.kaggle.com/datasets/nltkdata/brown-corpus

下载链接

链接失效反馈

资源简介：

Brown Corpus of Standard American English

创建时间：

2017-08-20

AI搜集汇总

数据集介绍

构建方式

Brown Corpus，作为现代计算语言学领域的奠基之作，其构建始于1961年，由布朗大学的W.N. Francis和H. Kucera主导完成。该数据集精心挑选了100万词次的英语文本，涵盖了500篇不同主题和风格的文档，旨在反映20世纪60年代美国英语的多样性。构建过程中，研究团队采用了严格的文本分类和标注标准，确保了数据集的高质量和广泛适用性。

特点

Brown Corpus的显著特点在于其历史地位和广泛的应用领域。作为第一个大规模的电子文本语料库，它不仅为语言学研究提供了宝贵的资源，还为自然语言处理（NLP）技术的发展奠定了基础。数据集中的文本涵盖了新闻、小说、学术论文等多种文体，使得研究者能够进行跨领域的语言分析。此外，Brown Corpus的标注系统，包括词性标注和句法结构标注，为后续的语料库研究提供了标准化的参考。

使用方法

Brown Corpus的使用方法多样，适用于语言学、计算语言学和NLP等多个研究领域。研究者可以通过访问该数据集，进行词频分析、词性标注、句法分析等基础研究。此外，Brown Corpus还可以作为训练和测试数据，用于开发和评估自然语言处理模型，如机器翻译、文本分类和信息检索系统。通过合理的数据处理和分析工具，研究者能够深入挖掘该数据集的丰富信息，推动相关领域的研究进展。

背景与挑战

背景概述

Brown Corpus，由布朗大学于1961年创建，是自然语言处理（NLP）领域的一个重要里程碑。该数据集由100万词的英语文本组成，涵盖了500个不同主题的文档，旨在为语言学研究提供一个标准化的文本资源。主要研究人员包括W.N. Francis和H. Kucera，他们的工作极大地推动了统计语言学和计算语言学的发展。Brown Corpus的核心研究问题是如何利用大规模文本数据进行语言特征的统计分析，其影响力至今仍在NLP领域中广泛体现，尤其是在语言模型和文本分类的研究中。

当前挑战

尽管Brown Corpus在NLP领域具有重要地位，但其构建过程中也面临诸多挑战。首先，数据集的多样性问题，即如何确保500个文档能够代表英语语言的广泛使用，是一个主要挑战。其次，数据集的标注问题，包括词性标注和句法分析，需要高度专业化的知识和技能。此外，随着时间的推移，语言的使用和变化使得Brown Corpus在现代应用中的适用性受到限制，如何更新和扩展该数据集以适应现代语言学研究的需求，是当前面临的重要挑战。

发展历史

创建时间与更新

Brown Corpus，作为现代计算语言学领域的奠基之作，于1961年由布朗大学的W.N. Francis和H. Kucera创建。该数据集的首次发布标志着计算机处理自然语言文本的早期尝试，其后续更新主要集中在1979年，当时增加了更多的文本样本和语言标注，进一步丰富了其内容和应用范围。

重要里程碑

Brown Corpus的重要里程碑之一是其作为第一个大规模的英语文本语料库，为后续的语言模型和自然语言处理技术奠定了基础。1964年，Francis和Kucera发表了关于Brown Corpus的详细研究报告，详细描述了其构建方法和应用价值，这一报告成为了计算语言学领域的经典文献。此外，1979年的更新不仅增加了文本数量，还引入了更多的语言学标注，使其在语言学研究和自然语言处理中的应用更加广泛和深入。

当前发展情况

当前，Brown Corpus虽然已不再是最新的数据集，但其历史地位和学术价值依然显著。它被广泛用于语言学教学和研究，特别是在历史语言学和计算语言学领域，作为经典案例被反复引用和分析。随着技术的进步，Brown Corpus的数据和方法也被用于现代数据集的构建和验证，继续在推动自然语言处理技术的发展中发挥作用。尽管有更多先进的数据集出现，Brown Corpus的历史意义和教育价值使其在学术界仍占有重要地位。

发展历程

Brown Corpus首次发表，由布朗大学的W.N. Francis和H. Kucera创建，成为第一个大规模的英语语料库。
1961年
Brown Corpus正式发布，包含100万词的文本，涵盖500篇不同主题和风格的文本，为语言学研究提供了重要资源。
1964年
Brown Corpus被广泛应用于自然语言处理和计算语言学领域，成为许多语言模型和算法的基础。
1979年
Brown Corpus的扩展版本LOB Corpus（Lancaster-Oslo/Bergen Corpus）发布，包含100万词的英国英语文本，进一步丰富了语料库资源。
1980年
Brown Corpus及其扩展版本在语言学和计算语言学领域的应用达到高峰，成为标准参考数据集。
1990年
随着新技术的出现，Brown Corpus逐渐被更大规模和多样化的语料库所取代，但其历史地位和影响力依然显著。
2000年

常用场景

经典使用场景

Brown Corpus，作为现代语言学研究的基石，其经典使用场景主要集中在语言模式分析与语料库语言学领域。该数据集包含了1961年美国英语的多样化文本样本，涵盖新闻、小说、学术论文等多种文体，为研究者提供了丰富的语言数据资源。通过分析Brown Corpus，学者们能够深入探讨词汇使用频率、句法结构以及文体特征，从而揭示语言的内在规律和变化趋势。

衍生相关工作

Brown Corpus的成功激发了一系列相关工作的开展，如LOB Corpus、BNC（British National Corpus）等，这些数据集在不同语言和时期背景下，进一步丰富了语言研究的资源库。此外，基于Brown Corpus的研究方法和技术，如词频统计、共现分析等，也被广泛应用于后续的语言数据集构建和分析中，推动了语料库语言学的持续发展。

数据集最近研究

相关研究论文

1
Brown Corpus: A Standard Corpus of Present-Day Edited American English, for Use with Digital ComputersBrown University · 1964年
2
The Brown Corpus of American English Texts: Specifications and ProceduresBrown University · 1967年
3
The Influence of the Brown Corpus on Natural Language ProcessingAssociation for Computational Linguistics · 2014年
4
A Comparative Study of the Brown Corpus and the Lancaster-Oslo/Bergen CorpusUniversity of Oslo · 2009年
5
The Role of the Brown Corpus in Modern NLP ResearchUniversity of Cambridge · 2020年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

农业农作物生长全周期数据集

农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据，实现农业生产的精准化管理和可持续发展。

浙江大数据交易服务平台收录

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

UAV123

从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50，OTB100，VOT2014，VOT2015，TC128和ALOV300) 中的视频本质上不同。因此，我们提出了一个新的数据集 (UAV123)，其序列来自空中视点，其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧，使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外，请注意，文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。

OpenDataLab 收录