Joe Rogan Podcast Corpus
收藏github2024-04-08 更新2024-05-31 收录
下载链接:
https://github.com/turnerdan/joethecorpusrogan
下载链接
链接失效反馈官方服务:
资源简介:
一个包含8.43百万字词的Joe Rogan Experience播客语料库,包含语音和单词级注释的校准TextGrids。
A corpus of 8.43 million words from the Joe Rogan Experience podcast, including calibrated TextGrids with speech and word-level annotations.
创建时间:
2020-01-21
原始信息汇总
数据集概述
数据集名称
The Joe Rogan Podcast Corpus
数据集内容
- 包含8.43百万字的语音数据。
- 包含超过833小时的语音记录。
- 提供预打包的n-gram频率,包括整体和按月统计。
- 提供预对齐的TextGrids,支持高级声学分析。
数据集特点
- 包含详细的语音和词汇级别的标注。
- 支持深入的语言学和声学分析。
数据集使用
- 提供详细的脚本和工具使用说明,包括数据抓取、处理和分析的流程。
- 提供n-gram频率分析,支持整体和时间序列分析。
数据集结构
- 数据集包含多个部分,包括原始音频、转录文本、TextGrids文件和频率分析结果。
- 数据集文件分布在不同的目录中,如
/aligned/和jtcr_uni/bi/trigram.csv等。
数据集引用
- 引用格式:Turner, Daniel R. (2020). Joe Rogan Podcast Corpus. https://github.com/turnerdan/joethecorpusrogan/
搜集汇总
数据集介绍

构建方式
Joe Rogan Podcast Corpus的构建基于对Joe Rogan Experience播客的深入分析与处理。构建过程始于通过`scrape.R`脚本从播客的官方RSS源中提取基本信息,如剧集编号、日期和音频URL,并尝试从podscribe.app获取转录文本。随后,`trim.R`脚本从转录文本中提取时间戳信息,以便为音频和文本的对齐提供更精确的标记。接着,`podchunk.praat`脚本生成TextGrid文件,用于指示文本与音频片段的对应关系。最后,`align.R`脚本调用Montreal Forced Aligner工具,对音频和TextGrid文件进行强制对齐,生成精确的语音和文本对齐结果。
特点
Joe Rogan Podcast Corpus的显著特点在于其庞大的数据规模和精细的语音与文本对齐。该数据集包含超过843万词和833小时的语音数据,涵盖了Joe Rogan Experience播客的广泛内容。此外,数据集还提供了预打包的ngram频率信息,包括整体频率和按月频率,便于时间序列分析。TextGrid文件的精确对齐为高级声学分析提供了坚实基础,使得该数据集在语音学和语言学研究中具有广泛的应用潜力。
使用方法
Joe Rogan Podcast Corpus的使用方法多样,适用于不同层次的语言和语音分析。研究者可以通过访问`/aligned/`目录下的TextGrid文件,进行语音与文本的对齐分析。对于ngram频率分析,数据集提供了整体和按月的频率文件,研究者可以直接加载这些文件进行语言模式和话题变化的研究。此外,数据集的构建脚本公开发布,为有兴趣构建类似数据集的研究者提供了参考和起点。
背景与挑战
背景概述
Joe Rogan Podcast Corpus 是由 Daniel R. Turner 于2020年创建的一个大规模语音数据集,专注于从 Joe Rogan Experience 播客中提取的843万词的语音数据。该数据集不仅包含了超过833小时的语音数据,还提供了对齐的TextGrids文件,支持语音和文本的精确对齐,适用于高级声学分析。Turner 的初衷是利用播客中长期稳定的对话环境,探索语言学和声学分析的可能性。该数据集的创建不仅为语言学研究提供了丰富的资源,还为播客领域的声学分析和语言变化研究奠定了基础。
当前挑战
Joe Rogan Podcast Corpus 的构建过程中面临了多个挑战。首先,从播客中提取和整理大量语音数据需要高效的自动化工具,Turner 通过编写多个脚本实现了从数据抓取到语音对齐的全流程自动化。其次,语音与文本的对齐是一个复杂的过程,尽管使用了Montreal Forced Aligner,但仍存在一定的误差。此外,数据集的时间跨度较大,如何分析语言模式和话题随时间的变化也是一个重要的挑战。最后,数据集的规模庞大,特别是三元组频率文件的存储和处理,对计算资源和存储空间提出了较高的要求。
常用场景
经典使用场景
Joe Rogan Podcast Corpus 数据集的经典使用场景主要集中在语言学和语音学研究领域。研究者可以利用该数据集进行语音识别、语音合成、以及语言模式分析等任务。通过数据集中提供的TextGrids文件,研究者能够进行精确的语音与文本对齐分析,从而深入探讨语音特征与语言结构之间的关系。此外,数据集中的ngram频率信息也为语言演变和语料库语言学研究提供了宝贵的资源。
解决学术问题
Joe Rogan Podcast Corpus 数据集解决了多个学术研究中的关键问题。首先,它为语音学研究提供了大规模、高质量的语音与文本对齐数据,有助于提升语音识别和语音合成技术的准确性。其次,通过分析ngram频率,研究者可以探讨语言随时间的变化趋势,为语言演变研究提供了新的视角。此外,该数据集还为语料库语言学提供了丰富的素材,帮助研究者更好地理解语言的结构和使用模式。
衍生相关工作
Joe Rogan Podcast Corpus 数据集的发布激发了众多相关研究工作。许多研究者基于该数据集开展了语音识别、语音合成、以及语言模式分析等领域的研究。例如,有研究者利用该数据集训练了高精度的语音识别模型,并将其应用于实际场景中。此外,还有研究者通过分析数据集中的ngram频率,探讨了语言随时间的变化趋势,为语言演变研究提供了新的见解。这些衍生工作不仅丰富了语音学和语言学的研究内容,还推动了相关技术的实际应用。
以上内容由遇见数据集搜集并总结生成



