Australian Component of the International Corpus of English (ICE-AUS)
收藏澳大利亚国际英语语料库(ICE-AUS)
概述
澳大利亚国际英语语料库(ICE-AUS)是一个包含约一百万词的语料库,收录了1992-1995年间的澳大利亚英语口语和书面语转录文本。该语料库包含500个澳大利亚英语样本(60%为口语,40%为书面语),与其他ICE语料库(与国际英语语料库相关联)结构相匹配。
口语数据包括面对面口语对话、电话对话、独白、广播对话和脚本演讲的转录文本。书面文本包括未发表的信件(个人和专业)、学生论文、报纸写作、流行非小说、学术写作和小说样本。
数据来源
原始数据集来自麦考瑞大学研究数据 - 澳大利亚国际英语语料库(ICE-AUS),并根据CC BY 4.0许可进行授权。
数据集结构
解压ICE Corpus.zip后,包含500个.txt格式的语料库文件和5个元数据电子表格:
ICE Spoken:301个.txt文件,包含口语数据的转录文本。ICE Written:199个.txt文件,包含书面文本样本。metadata:5个.xls文件,包含所有.txt文件的元数据。
详细目录结构如下:
bash ICE Corpus ├── ICE Spoken │ ├── S1A │ │ ├── S1A-001.TXT │ │ ├── ... │ │ └── S1A-100.TXT │ ├── S1B │ │ ├── S1B-001.TXT │ │ ├── ... │ │ └── S1B-080.TXT │ ├── S2A │ │ ├── S2A-001.TXT │ │ ├── ... │ │ └── S2A-070.TXT │ └── S2B │ ├── S2B-001.TXT │ │ ├── ... │ └── S2B-050.TXT ├── ICE Written │ ├── W1A │ │ ├── W1A-001.TXT │ │ ├── ... │ │ └── W1A-020.TXT │ ├── W1B │ │ ├── W1B-001.TXT │ │ ├── ... │ │ └── W2A-040.TXT │ ├── W2B │ │ ├── W2B-001.TXT │ │ ├── ... │ │ └── W2B-040.TXT │ ├── W2C │ │ ├── W2C-001.TXT │ │ ├── ... │ │ └── W2C-020.TXT │ ├── W2D │ │ ├── W2D-001.TXT │ │ ├── ... │ │ └── W2D-020.TXT │ ├── W2E │ │ ├── W2E-001.TXT │ │ ├── ... │ │ └── W2E-010.TXT │ └── W2F │ ├── W2F-001.TXT │ │ ├── ... │ └── W2F-020.TXT └── metadata ├── ICE-catalogue.xls ├── demographic_info_ice-aus_s1a.xls ├── demographic_info_ice-aus_s1b.xls ├── demographic_info_ice-aus_s2a.xls └── demographic_info_ice-aus_s2b.xls
16 directories, 505 files
下载
您可以直接从麦考瑞大学研究数据 - 澳大利亚国际英语语料库(ICE-AUS)下载数据集。
您也可以通过运行download.py在终端中下载:
bash
$ python3 download.py --help
usage: download.py [-h] [--save_path SAVE_PATH] [--unzip]
Download a file and optionally unzip it.
options: -h, --help show this help message and exit --save_path SAVE_PATH Path to save the downloaded file. --unzip Unzip the file if its a zip archive.
例如:
python3 download.py --save_path my_data --unzip将在my_data目录下下载并解压数据集ACE.zip。python3 download.py将仅在当前目录下下载。
许可
本仓库根据MIT许可进行授权。




