Australian Radio Talkback Corpus (ART)
收藏Australian Radio Talkback Corpus (ART)
概述
Australian Radio Talkback (ART) 是一个包含 2004 年至 2006 年 澳大利亚全国、地区和商业广播电台的 转录录音 的数据集。它包括来自 ABC 国家广播电台(NAT)、ABC 面向东澳大利亚的广播(ABCE)、ABC 面向南澳大利亚和西澳大利亚的广播(ABCNE),以及商业电台面向东澳大利亚(COME)和南澳大利亚及西澳大利亚(COMNE)的 27 段录音的转录文本。
关键词:澳大利亚英语,语料库语言学。
数据来源
原始数据集来自 Macquarie University Research Data - Australian Radio Talkback Corpus (ART),并根据 CC BY 4.0 许可进行授权。
数据集结构
解压 ABC.zip 后,数据集包含以下内容:
ABC文件夹包含来自 NAT、ABCE 和 ABCNE 的 14 份转录文本,格式为.txt。Commercial文件夹包含来自 COME 和 COMNE 的 15 份转录文本,格式为.txt。ART-corpus-catalogue.xls包含每份转录文本的详细目录。
下载
您可以直接从 Macquarie University Research Data - Australian Radio Talkback Corpus (ART) 下载数据集。
您也可以通过在终端运行 download.py 来下载:
bash
$ python3 download.py --help
usage: download.py [-h] [--save_path SAVE_PATH] [--unzip]
Download a file and optionally unzip it.
options: -h, --help show this help message and exit --save_path SAVE_PATH Path to save the downloaded file. --unzip Unzip the file if its a zip archive.
例如:
python3 download.py --save_path my_data --unzip将在my_data目录下下载并解压数据集ACE.zip。python3 download.py将仅在当前目录下下载。
许可
本仓库根据 MIT 许可进行授权。




