Corpus of Australian and New Zealand Spoken English (CoANZSE)

github2024-08-15 更新2024-08-16 收录

下载链接：

https://github.com/southern-cross-ai/CoANZSE

下载链接

链接失效反馈

官方服务：

资源简介：

Corpus of Australian and New Zealand Spoken English (CoANZSE)是一个包含196亿单词的语料库，由澳大利亚和新西兰地方政府频道的地理定位自动语音识别（ASR）YouTube转录组成。该语料库旨在研究口语的词汇、语法和语篇语用现象，以及数字人文和社会科学领域的内容和语言分析。

The Corpus of Australian and New Zealand Spoken English (CoANZSE) is a corpus containing 19.6 billion words, composed of geolocated automatic speech recognition (ASR) YouTube transcripts sourced from local government channels in Australia and New Zealand. This corpus is designed to study lexical, grammatical, and discourse-pragmatic phenomena of spoken English, as well as content and linguistic analysis in the fields of digital humanities and social sciences.

创建时间：

2024-08-07

原始信息汇总

Corpus of Australian and New Zealand Spoken English (CoANZSE)

概述

主题: 人文艺术；计算机与信息科学；社会科学；其他
关键词: 语料库语言学；方言学；口语；语音转录；澳大利亚；新西兰
描述: 该数据集是一个包含1.96亿词的语料库，由澳大利亚和新西兰的本地政府频道上的自动语音识别（ASR）YouTube转录组成。该语料库用于研究口语的词汇、语法和语篇语用现象，以及数字人文和社会科学领域的内容和语言分析。
注释: 包含单个词的时间戳和视频ID，便于即时查看任何搜索的视频。
规模: 包含55,896个ASR转录，来自472个YouTube频道，对应约24,007小时的视频，共计195,583,873个词。
来源: 主要来自本地政府实体，如地方、城市、县、地区和区域议会，以及各种视频类型的转录，特别是公共会议的录音。

数据结构

文件格式: 包含两个大型.gz文件：
- coanzse_tokens_distributable_02072023.csv.gz: 303 MB，未标记语料库。
- coanzse_textpos_distributable_07092023.csv.gz: 1.0 GB，带词性标记和时间戳的语料库。
分割文件: 将未压缩的大型.csv文件分割成272个小.csv文件，每个文件约411行。
分隔符: 管道字符 "|"。
列: country, state, council_name, channel_title, channel_url, video_title, video_id, upload_date, video_length, location, nr_words, text_pos（或text，在未标记版本中），和latlong。
行: 每行对应一个单独的转录。

许可和使用条款

访问权限: 需要从Harvard Dataverse - Corpus of Australian and New Zealand Spoken English获取访问/下载权限。
所有者: Steven Coats 和 Jeremy Yuenger。
使用限制: 仅限于非商业研究、教育和学术目的。
许可条款: 请访问原始数据集页面获取详细信息。

搜集汇总

数据集介绍

构建方式

Corpus of Australian and New Zealand Spoken English (CoANZSE) 数据集的构建基于澳大利亚和新西兰本地政府频道的自动语音识别（ASR）YouTube 转录文本。该数据集通过收集来自 472 个 YouTube 频道的 55,896 份 ASR 转录文本，总计约 24,007 小时的视频内容，形成了包含 196 百万词的语料库。这些转录文本不仅包含单词的时序信息和视频 ID，还涵盖了地理定位信息，便于进行词汇、语法及语用现象的研究。此外，为遵守版权法，每 200 个词中随机替换 10 个词为 '@'，确保数据使用的合规性。

特点

CoANZSE 数据集的显著特点在于其大规模和多样性。该数据集包含 196 百万词的转录文本，覆盖了澳大利亚和新西兰的本地政府频道，提供了丰富的口语语言样本。数据集中的转录文本附带了详细的时序信息和视频 ID，便于研究人员快速定位和验证原始视频内容。此外，数据集的构建过程中采用了随机替换部分词汇的方法，以符合版权法的要求，确保了数据使用的合法性。

使用方法

使用 CoANZSE 数据集时，用户需从 Harvard Dataverse 获取下载权限，并遵守数据使用协议。数据集提供了两种格式的文件：未标记的转录文本和带有词性标记及时间戳的文本。用户可以通过下载 `.gz` 文件并使用提供的工具进行分割处理，或直接使用已分割的小文件进行分析。数据集的列包括国家、州、议会名称、频道标题、视频标题、上传日期等详细信息，便于进行多维度的语言和内容分析。

背景与挑战

背景概述

Corpus of Australian and New Zealand Spoken English (CoANZSE) 是由Steven Coats和Jeremy Yuenger创建的一个包含196百万词的语料库，主要用于研究澳大利亚和新西兰的口语英语中的词汇、语法和语用现象。该语料库基于澳大利亚和新西兰地方政府频道的自动语音识别（ASR）YouTube转录，涵盖了55,896个ASR转录，对应近24,007小时的视频内容。CoANZSE的创建不仅丰富了口语英语的研究资源，还为数字人文和社会科学领域的语言和内容分析提供了宝贵的数据支持。

当前挑战

CoANZSE在构建过程中面临多项挑战。首先，数据集的规模庞大，处理和存储196百万词的语料库需要高效的计算资源和存储解决方案。其次，由于数据来源于YouTube的自动语音识别转录，转录的准确性可能受到ASR技术的限制，这可能影响后续研究的准确性。此外，为了遵守版权法，每200个词中有10个词被替换为'@'符号，这增加了数据处理的复杂性。最后，数据集的使用受到严格的非商业用途限制，这可能限制其在商业应用中的推广和使用。

常用场景

经典使用场景

Corpus of Australian and New Zealand Spoken English (CoANZSE) 数据集的经典使用场景主要集中在语言学和数字人文领域。研究者可以利用该数据集进行词汇、语法和语用现象的分析，特别是针对澳大利亚和新西兰的方言特征。此外，该数据集还支持内容分析和语言分析，为社会科学和计算机信息科学提供了丰富的语料资源。通过结合视频ID和单词时间戳，研究者能够精确地定位和分析特定语言现象在实际对话中的表现。

实际应用

在实际应用中，CoANZSE 数据集被广泛用于语言教学和本地化服务。教育机构可以利用该数据集开发针对澳大利亚和新西兰英语的课程，帮助学生更好地理解和掌握当地语言特点。此外，该数据集还支持语音识别和自然语言处理技术的开发与优化，特别是在需要适应特定区域口音和方言的应用场景中，如智能语音助手和翻译服务。

衍生相关工作

CoANZSE 数据集的发布催生了多项相关研究和工作。例如，基于该数据集的研究论文探讨了澳大利亚和新西兰英语的词汇和语法特征，推动了方言学和语料库语言学的发展。此外，该数据集还启发了其他类似语料库的建设，如北美和英国的口语英语语料库，进一步丰富了全球范围内的口语语言研究资源。

以上内容由遇见数据集搜集并总结生成