COOEE
收藏github2024-08-07 更新2024-08-08 收录
下载链接:
https://github.com/southern-cross-ai/COOEE
下载链接
链接失效反馈官方服务:
资源简介:
COOEE数据集包含1788年至1900年间在澳大利亚、新西兰或诺福克岛产生的文本,包括信件、出版物和历史文本。数据集按时间分为四个时期,并按注册类型分为四种。
The COOEE Dataset comprises texts generated in Australia, New Zealand, or Norfolk Island between 1788 and 1900, including letters, publications, and historical texts. The dataset is divided into four chronological periods and categorized into four types based on registration types.
创建时间:
2024-08-07
原始信息汇总
A COrpus of Oz Early English (COOEE)
概述
COOEE 数据集包含的文本必须满足地域和时间标准。时间标准要求文本必须在1788年至1900年间产生,且必须是在澳大利亚、新西兰或诺福克岛编写的。在少数情况下,也允许其他地区的文本,例如,如果作者是澳大利亚本地人或在澳大利亚居住了很长时间,并且编写了航海日记或在其他国家旅行。
包含内容:信件、出版物(书籍形式)、历史文本。
数据集按两种方式分层:
- 时间周期 - 数据集分为四个时间段(文件名开头的数字表示文档所属的时间段):
- 第一时期:1788-1825
- 第二时期:1826-1850
- 第三时期:1851-1875
- 第四时期:1876-1900
- 语体 - 数据集包含四种语体(每个文件的元数据中指定了文件所属的语体,格式为
<r=[register]>,使用上述缩写):- 基于口语的(sb)
- 私人书面(prw)
- 公共书面(pcw)
- 政府英语(ge)
数据来源
原始数据从 LDaCA - A COrpus of Oz Early English (COOEE) 下载,并根据 CC BY 4.0 许可。
数据集结构
data/COOEE 目录包含从 LDaCA - A COrpus of Oz Early English (COOEE) 收集的 1357 个纯文本 .txt 文件。
下载
可以通过运行 download.ipynb 来安装依赖项并下载数据集。
注意,在下载数据集之前,需要在 LDaCA 注册账户并使用他们的 API。您的 API 需要存储在 vars.env 中,以便由笔记本加载。
更多详细信息请参见 download.ipynb。
许可
本仓库根据 MIT 许可。
搜集汇总
数据集介绍

构建方式
在构建COOEE数据集时,研究者精心收集了从澳大利亚早期殖民时期至20世纪初的大量文本资料。这些资料涵盖了多种文体,包括书信、报纸、法律文件、日记以及文学作品。通过细致的分类和整理,数据集被划分为四个时间阶段,每个阶段对应不同的文件数量,从而系统地反映了澳大利亚早期英语的演变过程。此外,数据集还根据文本的语体特征进行了进一步的分类,包括基于口语的文本、私人书写、公共书写以及政府英语,确保了数据的多维度分析价值。
特点
COOEE数据集的显著特点在于其丰富的历史文本资源和精细的分类体系。首先,数据集包含了1357个纯文本文件和1个元数据文件,这些文件不仅按时间顺序排列,还根据语体进行了细致的分类,使得研究者能够深入探索澳大利亚早期英语的多样性和复杂性。其次,数据集的开放获取和共享机制,通过CC BY 4.0许可,确保了其广泛的可访问性和学术研究价值。
使用方法
使用COOEE数据集时,研究者可以通过运行`utils/download.ipynb`脚本来安装必要的依赖并下载数据集。该脚本源自[GitHub - Australian-Text-Analytics-Platform/cooee](https://github.com/Australian-Text-Analytics-Platform/cooee),并经过修改以适应LDaCA的API服务。为了使用这些服务,用户需在[LDaCA](https://data.ldaca.edu.au/)注册账户,并将API密钥存储在`utils/vars.env`文件中。数据集的结构清晰,便于研究者根据时间或语体进行筛选和分析,从而支持多样化的语言学研究。
背景与挑战
背景概述
COrpus of Oz Early English (COOEE) 是一个开创性的语言学项目,旨在构建一个全面的数字资源库,记录澳大利亚从早期殖民时期到20世纪初的英语使用情况。该项目由Yifan Luo等研究人员主导,汇集了包括信件、报纸、法律文件、日记和文学作品在内的多种文本,为研究澳大利亚早期定居者、囚犯以及与英语互动的原住民的语言使用提供了丰富的多维视角。COOEE数据集的创建不仅填补了澳大利亚早期英语语言学研究的空白,还为语言学家、历史学家和文化研究者提供了宝贵的资源,推动了相关领域的深入研究。
当前挑战
COOEE数据集在构建过程中面临了多重挑战。首先,数据来源多样且分散,涵盖了不同时间、不同社会群体的文本,这要求研究人员在数据收集和整理过程中具备高度的专业性和细致性。其次,由于历史文本的特殊性,数据清洗和标准化处理成为一大难题,确保文本的准确性和一致性至关重要。此外,如何有效地组织和分类这些文本,以便于后续的语言分析和研究,也是该项目面临的重要挑战。这些挑战不仅考验了研究团队的技术能力,也推动了数据处理和语言学研究方法的创新。
常用场景
经典使用场景
在语言学研究领域,COOEE数据集的经典使用场景主要集中在澳大利亚早期英语的语言演变分析。通过该数据集,研究者能够深入探讨18世纪末至20世纪初澳大利亚英语的词汇、语法及语用特征。特别是,数据集中的时间分段和语体分类为研究提供了精细的分析框架,使得学者们能够系统地比较不同历史时期和社会语境下的语言使用差异。
实际应用
在实际应用中,COOEE数据集为历史语言学、社会语言学和文化研究提供了丰富的素材。例如,历史学家和语言学家可以利用该数据集重建早期澳大利亚社会的语言环境,从而更深入地理解当时的社会结构和文化交流。此外,教育领域也可以利用这些数据进行语言教学,帮助学生了解澳大利亚英语的历史背景和发展过程。
衍生相关工作
COOEE数据集的发布催生了多项相关研究工作,特别是在澳大利亚早期英语的语言学分析和历史语言学领域。例如,有研究利用该数据集进行词汇演变分析,揭示了特定词汇在不同历史时期的用法变化。此外,还有学者基于COOEE数据集开发了新的语言模型,用于模拟和预测澳大利亚英语的未来发展趋势。这些衍生工作不仅丰富了语言学研究的内容,也为相关领域的进一步探索提供了新的视角。
以上内容由遇见数据集搜集并总结生成



