ACE_Australian_Corpus_of_English

Hugging Face2024-08-14 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/SouthernCrossAI/ACE_Australian_Corpus_of_English

下载链接

链接失效反馈

官方服务：

资源简介：

澳大利亚英语语料库（ACE）是为了匹配1986年的澳大利亚数据与20世纪60年代的标准美国和英国语料库（Brown和LOB）而编制的。该语料库包含100万个单词的已发表文本，来自15个类别的非小说和小说，共500个样本。关键词包括澳大利亚英语和语料库语言学。数据来源是麦考瑞大学研究数据，并根据CC BY 4.0许可进行授权。数据集结构包括数据文件夹中的1718个.txt文件（包含纯文本和原始文本两种格式）和Manul文件夹中的18个.HTM文件（包含源字幕和作者信息）。下载方式可以通过直接下载链接或运行download.py脚本。

创建时间：

2024-08-14

原始信息汇总

澳大利亚英语语料库（ACE）

概述

澳大利亚英语语料库（ACE）是为了匹配1986年以来的澳大利亚数据与20世纪60年代的标准美国和英国语料库（Brown和LOB）而编制的。它包括100万个单词的已发表文本，来自500个样本，涵盖15个类别的非虚构和虚构作品。

关键词：澳大利亚英语，语料库语言学。

数据来源

原始数据集来自麦考瑞大学研究数据 - 澳大利亚英语语料库（ACE），并根据CC BY 4.0许可进行授权。

数据集结构

解压ACE.zip后，数据集包含在ACE目录下：

data目录包含1718个.txt文件，每个文档包含纯文本和原始两种格式。
Manul目录包含18个.HTM文件，提供每个文档的来源标题和作者信息。

下载

您可以直接从麦考瑞大学研究数据 - 澳大利亚英语语料库（ACE）下载。

您也可以通过在终端运行download.py来下载：

bash $ python3 download.py --help
usage: download.py [-h] [--save_path SAVE_PATH] [--unzip]

Download a file and optionally unzip it.

options: -h, --help show this help message and exit --save_path SAVE_PATH Path to save the downloaded file. --unzip Unzip the file if its a zip archive.

例如：

python3 download.py --save_path my_data --unzip将在my_data目录下下载并解压数据集ACE.zip。
python3 download.py将仅在当前目录下下载。

许可

本仓库根据MIT许可进行授权。

搜集汇总

数据集介绍

构建方式

澳大利亚英语语料库（ACE）的构建旨在与1960年代的标准美式和英式语料库（如Brown和LOB）相匹配，涵盖了1986年的澳大利亚英语数据。该语料库包含了来自15个非小说和小说类别的500个样本，总计100万字的已发布文本。数据来源自麦考瑞大学的研究数据，经过Gillian Law的清理后，提供了更为规范化的版本。

特点

ACE语料库的特点在于其专注于澳大利亚英语的多样性，涵盖了广泛的文本类型，包括非小说和小说类别的样本。语料库的规模适中，包含100万字的文本，能够为语言学研究提供丰富的语料支持。此外，其与标准美式和英式语料库的对比性设计，使得研究者能够深入探讨澳大利亚英语的独特语言特征。

使用方法

ACE语料库的使用方法多样，适用于语言学研究、自然语言处理任务以及澳大利亚英语的方言分析。研究者可以通过HuggingFace平台获取清理后的数据集，或通过GitHub访问未清理的原始数据。该数据集支持文本分类、语言模型训练等任务，尤其适合用于探索澳大利亚英语的语法、词汇和语用特征。

背景与挑战

背景概述

澳大利亚英语语料库（Australian Corpus of English, ACE）由麦考瑞大学（Macquarie University）于1986年创建，旨在为澳大利亚英语提供与1960年代美国布朗语料库（Brown Corpus）和英国LOB语料库（LOB Corpus）相匹配的标准化数据。该语料库包含100万字的已发表文本，涵盖15个非虚构和虚构类别的500个样本。ACE的创建不仅填补了澳大利亚英语在语料库语言学领域的空白，还为研究澳大利亚英语的语法、词汇和语用特征提供了重要资源。其影响力延伸至语言变异、社会语言学及跨文化交际等多个研究领域。

当前挑战

ACE语料库的主要挑战在于其构建过程中需要确保数据的代表性和平衡性。由于澳大利亚英语在不同地区和社会群体中存在显著差异，如何准确捕捉这些变异并避免样本偏差成为一大难题。此外，语料库的清理和标准化工作也面临技术挑战，尤其是在处理历史文本时，需克服拼写、标点和格式的不一致性。在应用层面，ACE语料库的规模虽大，但其覆盖的文本类型和时间跨度有限，难以全面反映澳大利亚英语的历时变化和当代发展趋势。这些挑战限制了其在某些研究领域的适用性，同时也为未来的语料库扩展和改进提供了方向。

常用场景

经典使用场景

澳大利亚英语语料库（ACE）广泛应用于语言学研究领域，特别是在澳大利亚英语的语法、词汇和语用特征分析中。研究者通过该数据集能够深入探讨澳大利亚英语与其他英语变体（如美式英语和英式英语）之间的差异，揭示语言的地域性变化。此外，ACE还常用于语言教学材料的开发，帮助学习者更好地理解澳大利亚英语的独特表达方式。

衍生相关工作

基于ACE数据集，许多经典的语言学研究工作得以展开。例如，研究者利用ACE分析了澳大利亚英语的语法结构特征，并发表了多篇高影响力的学术论文。此外，ACE还启发了后续的区域性英语语料库建设，如新西兰英语语料库（Wellington Corpus of New Zealand English），进一步丰富了英语变体研究的资源库。

数据集最近研究