Joe Rogan Podcast Corpus

github2024-04-08 更新2024-05-31 收录

下载链接：

https://github.com/turnerdan/joethecorpusrogan

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含8.43百万字词的Joe Rogan Experience播客语料库，包含语音和单词级注释的校准TextGrids。

A corpus of 8.43 million words from the Joe Rogan Experience podcast, including calibrated TextGrids with speech and word-level annotations.

创建时间：

2020-01-21

原始信息汇总

数据集概述

数据集名称

The Joe Rogan Podcast Corpus

数据集内容

包含8.43百万字的语音数据。
包含超过833小时的语音记录。
提供预打包的n-gram频率，包括整体和按月统计。
提供预对齐的TextGrids，支持高级声学分析。

数据集特点

包含详细的语音和词汇级别的标注。
支持深入的语言学和声学分析。

数据集使用

提供详细的脚本和工具使用说明，包括数据抓取、处理和分析的流程。
提供n-gram频率分析，支持整体和时间序列分析。

数据集结构

数据集包含多个部分，包括原始音频、转录文本、TextGrids文件和频率分析结果。
数据集文件分布在不同的目录中，如/aligned/和jtcr_uni/bi/trigram.csv等。

数据集引用

引用格式：Turner, Daniel R. (2020). Joe Rogan Podcast Corpus. https://github.com/turnerdan/joethecorpusrogan/

搜集汇总

数据集介绍

构建方式

Joe Rogan Podcast Corpus的构建基于对Joe Rogan Experience播客的深入分析与处理。构建过程始于通过`scrape.R`脚本从播客的官方RSS源中提取基本信息，如剧集编号、日期和音频URL，并尝试从podscribe.app获取转录文本。随后，`trim.R`脚本从转录文本中提取时间戳信息，以便为音频和文本的对齐提供更精确的标记。接着，`podchunk.praat`脚本生成TextGrid文件，用于指示文本与音频片段的对应关系。最后，`align.R`脚本调用Montreal Forced Aligner工具，对音频和TextGrid文件进行强制对齐，生成精确的语音和文本对齐结果。

特点

Joe Rogan Podcast Corpus的显著特点在于其庞大的数据规模和精细的语音与文本对齐。该数据集包含超过843万词和833小时的语音数据，涵盖了Joe Rogan Experience播客的广泛内容。此外，数据集还提供了预打包的ngram频率信息，包括整体频率和按月频率，便于时间序列分析。TextGrid文件的精确对齐为高级声学分析提供了坚实基础，使得该数据集在语音学和语言学研究中具有广泛的应用潜力。

使用方法

Joe Rogan Podcast Corpus的使用方法多样，适用于不同层次的语言和语音分析。研究者可以通过访问`/aligned/`目录下的TextGrid文件，进行语音与文本的对齐分析。对于ngram频率分析，数据集提供了整体和按月的频率文件，研究者可以直接加载这些文件进行语言模式和话题变化的研究。此外，数据集的构建脚本公开发布，为有兴趣构建类似数据集的研究者提供了参考和起点。

背景与挑战

背景概述

Joe Rogan Podcast Corpus 是由 Daniel R. Turner 于2020年创建的一个大规模语音数据集，专注于从 Joe Rogan Experience 播客中提取的843万词的语音数据。该数据集不仅包含了超过833小时的语音数据，还提供了对齐的TextGrids文件，支持语音和文本的精确对齐，适用于高级声学分析。Turner 的初衷是利用播客中长期稳定的对话环境，探索语言学和声学分析的可能性。该数据集的创建不仅为语言学研究提供了丰富的资源，还为播客领域的声学分析和语言变化研究奠定了基础。

当前挑战

Joe Rogan Podcast Corpus 的构建过程中面临了多个挑战。首先，从播客中提取和整理大量语音数据需要高效的自动化工具，Turner 通过编写多个脚本实现了从数据抓取到语音对齐的全流程自动化。其次，语音与文本的对齐是一个复杂的过程，尽管使用了Montreal Forced Aligner，但仍存在一定的误差。此外，数据集的时间跨度较大，如何分析语言模式和话题随时间的变化也是一个重要的挑战。最后，数据集的规模庞大，特别是三元组频率文件的存储和处理，对计算资源和存储空间提出了较高的要求。

常用场景

经典使用场景

Joe Rogan Podcast Corpus 数据集的经典使用场景主要集中在语言学和语音学研究领域。研究者可以利用该数据集进行语音识别、语音合成、以及语言模式分析等任务。通过数据集中提供的TextGrids文件，研究者能够进行精确的语音与文本对齐分析，从而深入探讨语音特征与语言结构之间的关系。此外，数据集中的ngram频率信息也为语言演变和语料库语言学研究提供了宝贵的资源。

解决学术问题

Joe Rogan Podcast Corpus 数据集解决了多个学术研究中的关键问题。首先，它为语音学研究提供了大规模、高质量的语音与文本对齐数据，有助于提升语音识别和语音合成技术的准确性。其次，通过分析ngram频率，研究者可以探讨语言随时间的变化趋势，为语言演变研究提供了新的视角。此外，该数据集还为语料库语言学提供了丰富的素材，帮助研究者更好地理解语言的结构和使用模式。

衍生相关工作

Joe Rogan Podcast Corpus 数据集的发布激发了众多相关研究工作。许多研究者基于该数据集开展了语音识别、语音合成、以及语言模式分析等领域的研究。例如，有研究者利用该数据集训练了高精度的语音识别模型，并将其应用于实际场景中。此外，还有研究者通过分析数据集中的ngram频率，探讨了语言随时间的变化趋势，为语言演变研究提供了新的见解。这些衍生工作不仅丰富了语音学和语言学的研究内容，还推动了相关技术的实际应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集