Australian Corpus of English (ACE)

github2024-08-07 更新2024-08-08 收录

下载链接：

https://github.com/southern-cross-ai/ACE

下载链接

链接失效反馈

官方服务：

资源简介：

澳大利亚英语语料库（ACE）是为了匹配1986年以来的澳大利亚数据与20世纪60年代的标准美国和英国语料库（Brown和LOB）而编制的。它包括100万个已发表文本的单词，涵盖500个样本，分为15个非虚构和虚构类别。

The Australian English Corpus (ACE) was compiled to align Australian English linguistic data from 1986 onwards with the canonical American Brown Corpus and British LOB Corpus from the 1960s. It contains one million words of published text, comprising 500 samples categorized into 15 genres spanning both non-fiction and fiction.

创建时间：

2024-08-07

原始信息汇总

澳大利亚英语语料库（ACE）

概述

澳大利亚英语语料库（ACE）是为了匹配1986年的澳大利亚数据与20世纪60年代的标准美国和英国语料库（Brown和LOB）而编制的。它包括100万个单词的已发表文本，涵盖500个样本，分为15个非虚构和虚构类别。

关键词：澳大利亚英语，语料库语言学。

数据来源

原始数据集来自麦考瑞大学研究数据 - 澳大利亚英语语料库（ACE），并根据CC BY 4.0许可进行授权。

数据集结构

解压ACE.zip后，数据集包含在ACE目录下：

data目录包含1718个.txt文件，每个文档包括纯文本和原始两种格式。
Manul目录包含18个.HTM文件，提供每个文档的来源字幕和作者信息。

下载

您可以直接从麦考瑞大学研究数据 - 澳大利亚英语语料库（ACE）下载。

您也可以通过在终端运行download.py来下载：

bash $ python3 download.py --help
usage: download.py [-h] [--save_path SAVE_PATH] [--unzip]

下载文件并选择性解压。

选项： -h, --help 显示帮助信息并退出 --save_path SAVE_PATH 保存下载文件的路径 --unzip 如果是zip文件则解压

例如：

python3 download.py --save_path my_data --unzip 将在my_data目录下下载并解压数据集ACE.zip。
python3 download.py 将仅在当前目录下下载。

许可

本仓库根据MIT许可进行授权。

搜集汇总

数据集介绍

构建方式

澳大利亚英语语料库（Australian Corpus of English, ACE）的构建旨在与1960年代的标准美国和英国语料库（Brown和LOB）相匹配，涵盖了从1986年至今的澳大利亚数据。该语料库包含100万个单词的已发表文本，分为500个样本，涵盖15个类别的非小说和小说作品。数据集的原始来源为麦考瑞大学研究数据，通过精心筛选和分类，确保了数据的高质量和代表性。

特点

ACE语料库的一个显著特点是其丰富的内容和多样的格式。数据集包含1717个.txt文件，其中17个文件为各类别的摘要，其余文件则提供详细的文本内容。此外，数据集还包含18个.HTM文件，其中INDEX.HTM作为索引文件，其他文件则包含各分类的来源和作者信息。这种结构化的设计使得研究人员能够方便地进行文本分析和比较研究。

使用方法

使用ACE语料库时，用户可以直接从麦考瑞大学研究数据页面下载，或通过运行utils/download.py脚本进行下载和解压。下载后的数据集包含两个主要部分：data文件夹中的文本文件和Manul文件夹中的索引和信息文件。此外，用户还可以选择使用由Gillian Law整理的ACE_clean.csv文件，该文件可在Hugging Face平台上获取。这些资源为语言学研究提供了便捷的数据访问和处理途径。

背景与挑战

背景概述

澳大利亚英语语料库（Australian Corpus of English, ACE）由麦考瑞大学（Macquarie University）的研究团队编纂，旨在匹配1986年以来的澳大利亚英语数据与20世纪60年代的标准美国和英国语料库（Brown和LOB）。该语料库包含100万字的已发表文本，涵盖500个样本，分布在15个非小说和小说类别中。ACE的创建不仅填补了澳大利亚英语研究的空白，还为跨文化语言学研究提供了宝贵的资源，特别是在比较澳大利亚英语与其他英语变体方面。

当前挑战

ACE语料库在构建过程中面临多项挑战。首先，收集和整理1986年以来的澳大利亚英语数据需要克服时间跨度大、数据来源多样的问题。其次，确保语料库的样本能够代表澳大利亚英语的多样性，同时保持与早期语料库的可比性，是一项复杂的任务。此外，数据清洗和格式标准化也是构建过程中的关键挑战，特别是处理850个独特文档的两种格式（plain和raw）。这些挑战不仅影响了语料库的构建效率，也对其后续应用和分析提出了更高的要求。

常用场景

经典使用场景

在语言学研究领域，澳大利亚英语语料库（Australian Corpus of English, ACE）被广泛用于分析澳大利亚英语的独特特征及其与标准美国和英国英语的差异。通过对比1986年以来的澳大利亚文本数据与1960年代的Brown和LOB语料库，研究者能够深入探讨语言随时间演变的过程。该语料库包含100万字的出版文本，涵盖500个样本，涉及15个类别的非小说和小说作品，为语言学家提供了丰富的数据资源，以研究澳大利亚英语的词汇、语法和语用特征。

衍生相关工作

基于ACE语料库，许多相关研究工作得以展开。例如，有学者利用该语料库进行澳大利亚英语的词汇频率分析，揭示了特定词汇的使用模式和趋势。此外，还有研究探讨了澳大利亚英语与标准英语在语法结构上的差异，为语言学理论提供了新的视角。在计算语言学领域，ACE语料库也被用于开发和验证语言模型，提升了自然语言处理技术的准确性和可靠性。这些衍生工作不仅丰富了语言学研究的内容，也为实际应用提供了有力支持。

数据集最近研究