five

Australian Radio Talkback Corpus (ART)

收藏
github2024-08-07 更新2024-08-08 收录
下载链接:
https://github.com/southern-cross-ai/ART
下载链接
链接失效反馈
官方服务:
资源简介:
澳大利亚广播谈话语料库(ART)是一组从2004年到2006年的国家、地区和商业澳大利亚谈话广播的转录录音样本。它包括来自ABC国家广播(NAT)、ABC向东澳大利亚广播(ABCE)、ABC向南和西澳大利亚广播(ABCNE)以及向东澳大利亚(COME)和南、西澳大利亚(COMNE)商业广播的27个谈话录音的转录。

The Australian Radio Talk Corpus (ART) is a collection of transcribed audio samples from national, regional, and commercial Australian talk radio broadcasts spanning 2004 to 2006. It includes transcriptions of 27 talk radio recordings sourced from ABC National Radio (NAT), ABC East Australia Radio (ABCE), ABC South and West Australia Radio (ABCNE), as well as commercial broadcasts targeting East Australia (COME) and South and West Australia (COMNE).
创建时间:
2024-08-07
原始信息汇总

Australian Radio Talkback Corpus (ART)

概述

Australian Radio Talkback (ART) 是一个包含 2004 年至 2006 年 澳大利亚全国、地区和商业广播电台的 转录录音 的数据集。它包括来自 ABC 国家广播电台(NAT)、ABC 面向东澳大利亚的广播(ABCE)、ABC 面向南澳大利亚和西澳大利亚的广播(ABCNE),以及商业电台面向东澳大利亚(COME)和南澳大利亚及西澳大利亚(COMNE)的 27 段录音的转录文本

关键词:澳大利亚英语,语料库语言学。

数据来源

原始数据集来自 Macquarie University Research Data - Australian Radio Talkback Corpus (ART),并根据 CC BY 4.0 许可进行授权。

数据集结构

解压 ABC.zip 后,数据集包含以下内容:

  • ABC 文件夹包含来自 NAT、ABCE 和 ABCNE 的 14 份转录文本,格式为 .txt
  • Commercial 文件夹包含来自 COME 和 COMNE 的 15 份转录文本,格式为 .txt
  • ART-corpus-catalogue.xls 包含每份转录文本的详细目录。

下载

您可以直接从 Macquarie University Research Data - Australian Radio Talkback Corpus (ART) 下载数据集。

您也可以通过在终端运行 download.py 来下载:

bash $ python3 download.py --help
usage: download.py [-h] [--save_path SAVE_PATH] [--unzip]

Download a file and optionally unzip it.

options: -h, --help show this help message and exit --save_path SAVE_PATH Path to save the downloaded file. --unzip Unzip the file if its a zip archive.

例如:

  • python3 download.py --save_path my_data --unzip 将在 my_data 目录下下载并解压数据集 ACE.zip
  • python3 download.py 将仅在当前目录下下载。

许可

本仓库根据 MIT 许可进行授权。

搜集汇总
数据集介绍
main_image_url
构建方式
澳大利亚广播谈话语料库(ART)的构建基于2004年至2006年间澳大利亚国家、地区和商业广播电台的谈话节目录音。该数据集包括27段录音的转录文本,涵盖了ABC国家广播(NAT)、ABC东部广播(ABCE)、ABC南部和西部广播(ABCNE),以及商业广播东部(COME)和南部西部(COMNE)的节目。这些转录文本被整理为14个来自ABC广播的文本文件和15个来自商业广播的文本文件,并附有一个目录文件,详细列出了所有转录文本的信息。
特点
ART数据集的显著特点在于其多样性和地域覆盖广泛。它不仅包含了国家广播的转录,还涵盖了地区和商业广播的内容,提供了对澳大利亚不同地区英语使用情况的深入洞察。此外,数据集的转录文本经过精心整理,确保了文本的准确性和一致性,为语言学研究提供了高质量的语料。
使用方法
使用ART数据集时,用户可以通过访问Macquarie大学研究数据平台直接下载原始数据,或使用提供的Python脚本进行自动化下载和解压。数据集的结构清晰,用户可以根据需要选择特定的广播类型进行分析。此外,数据集还提供了经过清理的CSV格式数据,方便用户进行进一步的数据处理和分析。
背景与挑战
背景概述
澳大利亚广播谈话语料库(Australian Radio Talkback Corpus, ART)是由麦考瑞大学(Macquarie University)的研究团队在2004年至2006年间创建的,专注于澳大利亚英语的语料库语言学研究。该语料库包含了来自澳大利亚国家广播公司(ABC)和商业广播电台的27段谈话广播录音的转录文本,涵盖了国家、地区和商业广播的不同类型。ART语料库的创建旨在为语言学家和研究人员提供一个丰富的资源,以研究澳大利亚英语的语音、语法和语用特征,从而推动相关领域的学术研究。
当前挑战
ART语料库在构建过程中面临了多个挑战。首先,转录音频数据的过程需要高度精确,以确保文本的准确性和完整性。其次,由于涉及多个广播电台和不同地区的广播内容,数据的一致性和标准化处理成为一个重要问题。此外,如何有效地组织和分类这些转录文本,以便于后续的研究和分析,也是一项复杂的任务。最后,随着时间的推移,如何保持语料库的更新和扩展,以反映语言的动态变化,也是一个持续的挑战。
常用场景
经典使用场景
在语言学研究领域,Australian Radio Talkback Corpus (ART) 数据集被广泛用于分析澳大利亚英语的语音特征和语用习惯。通过该数据集,研究者可以深入探讨澳大利亚不同地区广播电台的谈话节目中的语言使用差异,从而揭示地域文化对语言表达的影响。此外,该数据集还常用于语音识别和自然语言处理模型的训练,以提高模型对澳大利亚英语的识别和理解能力。
衍生相关工作
基于 ART 数据集,许多相关研究工作得以展开。例如,有学者利用该数据集进行澳大利亚英语的语音特征分析,发表了多篇关于地域文化对语言表达影响的研究论文。此外,还有研究团队基于 ART 数据集开发了新的语音识别和自然语言处理模型,显著提高了模型对澳大利亚英语的识别和理解能力。这些衍生工作不仅丰富了语言学研究的理论成果,还推动了相关技术在实际应用中的进步。
数据集最近研究
最新研究方向
在语言学和语料库研究领域,澳大利亚广播谈话语料库(ART)近年来成为研究澳大利亚英语变体和广播媒体语言特征的重要资源。该数据集的最新研究方向主要集中在利用机器学习和自然语言处理技术,分析广播谈话中的语言模式、社会互动和情感表达。研究者们通过深度学习模型,探索广播谈话中的语言多样性和地域差异,从而揭示澳大利亚不同地区听众的交流习惯和语言偏好。此外,该数据集还被用于研究广播媒体在社会议题讨论中的角色和影响力,为理解媒体与公众舆论的关系提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作