SPoRC

github2024-11-12 更新2024-11-13 收录

下载链接：

https://github.com/blitt2018/SPoRC_data

下载链接

链接失效反馈

官方服务：

资源简介：

SPoRC是一个结构化的播客研究语料库，捕捉了播客数据的多模态特性，包含超过110万个播客的转录和元数据，以及超过37万个播客的说话者转换和音频特征数据。这些特征可以结合提供对人类交流的丰富洞察。

SPoRC is a structured podcast research corpus that captures the multimodal characteristics of podcast data. It includes transcripts and metadata for over 1.1 million podcasts, alongside speaker diarization and audio feature data for more than 370,000 podcasts. When integrated, these multimodal resources enable comprehensive insights into human communication.

创建时间：

2024-11-09

原始信息汇总

SPoRC: 结构化播客研究语料库

数据集概述

名称: SPoRC (Structured Podcast Research Corpus)
数据类型: 播客数据
数据量:
- 超过110万集的转录和元数据
- 超过37万集的说话者轮次和音频特征数据
数据来源:
- 播客级别的元数据来自Podcast Index
- 通过抓取2020年5月至6月的RSS源收集的剧集级别元数据

数据处理流程

三阶段管道:
1. 转录和音频特征提取: 使用transcribeOne.sh脚本
2. 说话者轮次提取: 使用diarizeOne.sh脚本
3. 数据合并: 使用mergeDiarization.py脚本

数据集内容

转录信息: 使用Whisper-base模型提取
音频特征: 使用openSmile提取eGeMAPSv02特征集
说话者轮次信息: 使用pyAnnoteGPU.py提取

数据集可视化

说话者音高信息与说话者轮次信息叠加:
- 图像: diarizationVisualization.png
按说话者轮次着色的播客转录:
- 图像: transcriptHighlightingFigure.png
说话者音高信息与词级转录信息并列显示:
- 图像: pitchDemo.png

数据集发布

发布平台: Hugging Face
使用限制: 仅限非商业用途

搜集汇总

数据集介绍

构建方式

SPoRC数据集的构建始于从Podcast Index获取的播客级别元数据，并通过对2020年5月至6月期间的英语播客RSS源进行抓取，收集了剧集级别的元数据。随后，通过一个三阶段管道处理这些RSS源中的mp3链接，提取出转录、音频特征和说话者切换信息。最终，这些数据类型在剧集和说话者切换级别上合并，并发布以供未来非商业用途使用。

特点

SPoRC数据集独特地捕捉了播客数据的多模态特性，包括超过110万集的转录和元数据，以及超过37万集的说话者切换和音频特征数据。这些特征的结合为人类交流提供了丰富的洞察力，如说话者音高信息与说话者切换信息的叠加，以及按说话者切换着色的播客转录。

使用方法

使用SPoRC数据集，用户可以通过提供的mp3链接输入，利用三阶段管道提取转录、音频特征和说话者切换信息。首先，通过transcribeOne.sh脚本进行转录和音频特征提取，然后通过diarizeOne.sh脚本进行说话者切换分析。最后，使用mergeDiarization.py脚本将所有信息合并，生成包含转录、音频特征和说话者切换信息的单一输出文件。

背景与挑战

背景概述

SPoRC（Structured Podcast Research Corpus）数据集由Blitt等人创建，旨在捕捉播客数据的多模态特性。该数据集包含了超过110万集的播客转录和元数据，以及超过37万集的说话者轮换和音频特征数据。通过整合这些数据，SPoRC为研究人类交流提供了丰富的信息资源。该数据集的构建始于2020年5月至6月，通过从Podcast Index获取播客级别的元数据，并从相关RSS源中抓取剧集级别的元数据，随后通过三阶段管道提取转录、音频和说话者轮换信息，最终将这些数据类型在剧集和说话者轮换级别上合并，并发布供未来非商业用途使用。

当前挑战

SPoRC数据集在构建过程中面临多项挑战。首先，播客数据的多模态特性要求在转录、音频特征提取和说话者轮换信息提取之间进行复杂的整合。其次，数据量巨大，处理和存储这些数据需要高效的计算资源和存储解决方案。此外，确保数据的质量和一致性也是一个重要挑战，特别是在处理不同来源和格式的数据时。最后，由于播客内容的动态性和多样性，如何有效地标注和分类这些数据以支持多样化的研究需求也是一个持续的挑战。

常用场景

经典使用场景

在语言学和计算社会科学领域，SPoRC数据集的经典使用场景主要集中在多模态数据分析上。通过整合播客的转录文本、音频特征和说话者切换信息，研究者能够深入探索人类交流的复杂性。例如，结合说话者的音调信息与说话者切换数据，可以揭示对话中的情感变化和互动模式。此外，通过将转录文本按说话者进行颜色编码，可以直观地展示对话中的重叠和轮换，从而为对话分析提供丰富的视觉和数据支持。

衍生相关工作

基于SPoRC数据集，研究者们开展了多项相关工作，推动了多模态数据分析技术的发展。例如，有研究利用该数据集开发了新的说话者识别算法，显著提升了识别的准确性和鲁棒性。此外，还有研究通过整合音频特征和转录文本，提出了新的情感分析模型，能够更准确地捕捉对话中的情感变化。这些工作不仅丰富了数据集的应用场景，也为相关领域的技术进步提供了有力支持。

数据集最近研究