Australian Component of the International Corpus of English (ICE-AUS)

github2024-08-07 更新2024-08-08 收录

下载链接：

https://github.com/southern-cross-ai/ICE-AUS

下载链接

链接失效反馈

官方服务：

资源简介：

澳大利亚国际英语语料库（ICE-AUS）是一个大约一百万字的语料库，包含1992-1995年间转录的口语和书面澳大利亚英语。它由500个澳大利亚英语样本组成（60%为口语，40%为书面语），与其他ICE语料库结构相匹配。口语数据包括面对面交谈、电话交谈、独白、广播对话和脚本演讲的转录，书面文本包括未发表的信件（个人和专业）、学生论文、报纸写作、流行非小说、学术写作和小说样本。

The International Corpus of English – Australian Component (ICE-AUS) is a corpus of approximately one million words, containing transcribed spoken and written Australian English produced between 1992 and 1995. It consists of 500 Australian English samples (60% spoken, 40% written), with a structure consistent with other ICE corpora. The spoken data includes transcriptions of face-to-face conversations, telephone conversations, monologues, broadcast dialogues, and scripted speeches. The written texts cover unpublished correspondence (personal and professional), student essays, newspaper articles, popular non-fiction, academic writing, and samples of fictional prose.

创建时间：

2024-08-07

原始信息汇总

澳大利亚国际英语语料库（ICE-AUS）

概述

澳大利亚国际英语语料库（ICE-AUS）是一个包含约一百万词的语料库，收录了1992-1995年间的澳大利亚英语口语和书面语转录文本。该语料库包含500个澳大利亚英语样本（60%为口语，40%为书面语），与其他ICE语料库（与国际英语语料库相关联）结构相匹配。

口语数据包括面对面口语对话、电话对话、独白、广播对话和脚本演讲的转录文本。书面文本包括未发表的信件（个人和专业）、学生论文、报纸写作、流行非小说、学术写作和小说样本。

数据来源

原始数据集来自麦考瑞大学研究数据 - 澳大利亚国际英语语料库（ICE-AUS），并根据CC BY 4.0许可进行授权。

数据集结构

解压ICE Corpus.zip后，包含500个.txt格式的语料库文件和5个元数据电子表格：

ICE Spoken：301个.txt文件，包含口语数据的转录文本。
ICE Written：199个.txt文件，包含书面文本样本。
metadata：5个.xls文件，包含所有.txt文件的元数据。

详细目录结构如下：

bash ICE Corpus ├── ICE Spoken │ ├── S1A │ │ ├── S1A-001.TXT │ │ ├── ... │ │ └── S1A-100.TXT │ ├── S1B │ │ ├── S1B-001.TXT │ │ ├── ... │ │ └── S1B-080.TXT │ ├── S2A │ │ ├── S2A-001.TXT │ │ ├── ... │ │ └── S2A-070.TXT │ └── S2B │ ├── S2B-001.TXT │ │ ├── ... │ └── S2B-050.TXT ├── ICE Written │ ├── W1A │ │ ├── W1A-001.TXT │ │ ├── ... │ │ └── W1A-020.TXT │ ├── W1B │ │ ├── W1B-001.TXT │ │ ├── ... │ │ └── W2A-040.TXT │ ├── W2B │ │ ├── W2B-001.TXT │ │ ├── ... │ │ └── W2B-040.TXT │ ├── W2C │ │ ├── W2C-001.TXT │ │ ├── ... │ │ └── W2C-020.TXT │ ├── W2D │ │ ├── W2D-001.TXT │ │ ├── ... │ │ └── W2D-020.TXT │ ├── W2E │ │ ├── W2E-001.TXT │ │ ├── ... │ │ └── W2E-010.TXT │ └── W2F │ ├── W2F-001.TXT │ │ ├── ... │ └── W2F-020.TXT └── metadata ├── ICE-catalogue.xls ├── demographic_info_ice-aus_s1a.xls ├── demographic_info_ice-aus_s1b.xls ├── demographic_info_ice-aus_s2a.xls └── demographic_info_ice-aus_s2b.xls

16 directories, 505 files

下载

您可以直接从麦考瑞大学研究数据 - 澳大利亚国际英语语料库（ICE-AUS）下载数据集。

您也可以通过运行download.py在终端中下载：

bash $ python3 download.py --help
usage: download.py [-h] [--save_path SAVE_PATH] [--unzip]

Download a file and optionally unzip it.

options: -h, --help show this help message and exit --save_path SAVE_PATH Path to save the downloaded file. --unzip Unzip the file if its a zip archive.

例如：

python3 download.py --save_path my_data --unzip 将在my_data目录下下载并解压数据集ACE.zip。
python3 download.py 将仅在当前目录下下载。

许可

本仓库根据MIT许可进行授权。

搜集汇总

数据集介绍

构建方式

在构建澳大利亚英语国际语料库（ICE-AUS）时，研究团队精心收集了1992年至1995年间的大约一百万字的数据，涵盖了澳大利亚英语的口语和书面语。该语料库包含500个样本，其中60%为口语数据，40%为书面文本。口语数据包括面对面交谈、电话对话、独白、广播对话和脚本演讲的转录，而书面文本则涵盖了未发表的信件、学生论文、报纸文章、流行非小说、学术写作和小说等多种类型。这些数据与国际英语语料库（ICE）的其他部分结构相匹配，确保了跨语言研究的连贯性和一致性。

特点

ICE-AUS数据集的显著特点在于其广泛的语言类型覆盖和时间跨度。该语料库不仅包括了多种口语和书面语形式的澳大利亚英语，还通过详细的元数据文件提供了关于每个文本的背景信息，如参与者的社会人口统计数据。此外，该数据集的结构设计与国际英语语料库的其他部分保持一致，便于进行跨国和跨时间的语言比较研究。

使用方法

使用ICE-AUS数据集时，用户可以通过解压缩提供的ZIP文件访问500个文本文件，其中301个为口语转录，199个为书面文本。此外，还提供了五个元数据文件，详细记录了每个文本的相关信息。用户可以选择直接下载数据集，或通过运行提供的Python脚本进行自动化下载和解压缩。对于希望进行更高效数据处理的学者，还可以选择使用Xinyu Mao整理的清洁版本，该版本可通过Hugging Face平台获取。

背景与挑战

背景概述

澳大利亚国际英语语料库（ICE-AUS）是国际英语语料库（ICE）的一个重要组成部分，由Macquarie大学于1992年至1995年间创建。该语料库包含约一百万字的澳大利亚英语口语和书面语转录文本，涵盖了500个样本，其中60%为口语，40%为书面语。ICE-AUS不仅反映了澳大利亚英语的多样性，还与国际英语语料库的其他部分保持结构一致性。该语料库的建立旨在深入研究澳大利亚英语的语言特征及其在不同语境中的应用，对语言学研究，特别是语料库语言学领域，具有重要影响。

当前挑战

ICE-AUS在构建过程中面临多项挑战。首先，数据收集涉及多种类型的文本，包括面对面对话、电话交谈、独白、广播对话以及各类书面文本，确保这些数据的代表性和准确性是一项复杂任务。其次，语料库的结构设计需与国际英语语料库的其他部分保持一致，这要求在数据分类和标注过程中保持高度的一致性和标准化。此外，数据的质量控制和后期处理，如转录的准确性和元数据的完整性，也是确保语料库研究价值的关键挑战。

常用场景

经典使用场景

在语言学研究领域，澳大利亚英语国际语料库（ICE-AUS）的经典使用场景主要集中在澳大利亚英语的语音、语法和词汇特征分析。研究者通过分析该语料库中的口语和书面语样本，能够深入探讨澳大利亚英语的独特性及其与其他英语变体的差异。此外，该语料库还广泛应用于语言教学和教材编写，为学习者提供真实的语言使用范例。

实际应用

在实际应用中，ICE-AUS数据集被广泛用于语言教学和翻译服务。教育机构利用该语料库开发针对澳大利亚英语的教材和课程，帮助学生更好地掌握这一语言变体。同时，翻译服务提供商也利用该数据集进行语言对齐和术语标准化，确保翻译文本的准确性和地道性。

衍生相关工作

基于ICE-AUS数据集，衍生出了一系列重要的研究工作。例如，有研究者利用该数据集进行澳大利亚英语的语音识别和合成研究，推动了语音技术的发展。此外，还有学者通过分析该语料库中的书面语样本，探讨了澳大利亚英语的文体特征和写作风格，为文学研究和语言学理论提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集