SPoRC
收藏github2024-11-12 更新2024-11-13 收录
下载链接:
https://github.com/blitt2018/SPoRC_data
下载链接
链接失效反馈官方服务:
资源简介:
SPoRC是一个结构化的播客研究语料库,捕捉了播客数据的多模态特性,包含超过110万个播客的转录和元数据,以及超过37万个播客的说话者转换和音频特征数据。这些特征可以结合提供对人类交流的丰富洞察。
SPoRC is a structured podcast research corpus that captures the multimodal characteristics of podcast data. It includes transcripts and metadata for over 1.1 million podcasts, alongside speaker diarization and audio feature data for more than 370,000 podcasts. When integrated, these multimodal resources enable comprehensive insights into human communication.
创建时间:
2024-11-09
原始信息汇总
SPoRC: 结构化播客研究语料库
数据集概述
- 名称: SPoRC (Structured Podcast Research Corpus)
- 数据类型: 播客数据
- 数据量:
- 超过110万集的转录和元数据
- 超过37万集的说话者轮次和音频特征数据
- 数据来源:
- 播客级别的元数据来自Podcast Index
- 通过抓取2020年5月至6月的RSS源收集的剧集级别元数据
数据处理流程
- 三阶段管道:
- 转录和音频特征提取: 使用transcribeOne.sh脚本
- 说话者轮次提取: 使用diarizeOne.sh脚本
- 数据合并: 使用mergeDiarization.py脚本
数据集内容
- 转录信息: 使用Whisper-base模型提取
- 音频特征: 使用openSmile提取eGeMAPSv02特征集
- 说话者轮次信息: 使用pyAnnoteGPU.py提取
数据集可视化
- 说话者音高信息与说话者轮次信息叠加:
- 按说话者轮次着色的播客转录:
- 说话者音高信息与词级转录信息并列显示:
- 图像: pitchDemo.png
数据集发布
- 发布平台: Hugging Face
- 使用限制: 仅限非商业用途
搜集汇总
数据集介绍

构建方式
SPoRC数据集的构建始于从Podcast Index获取的播客级别元数据,并通过对2020年5月至6月期间的英语播客RSS源进行抓取,收集了剧集级别的元数据。随后,通过一个三阶段管道处理这些RSS源中的mp3链接,提取出转录、音频特征和说话者切换信息。最终,这些数据类型在剧集和说话者切换级别上合并,并发布以供未来非商业用途使用。
特点
SPoRC数据集独特地捕捉了播客数据的多模态特性,包括超过110万集的转录和元数据,以及超过37万集的说话者切换和音频特征数据。这些特征的结合为人类交流提供了丰富的洞察力,如说话者音高信息与说话者切换信息的叠加,以及按说话者切换着色的播客转录。
使用方法
使用SPoRC数据集,用户可以通过提供的mp3链接输入,利用三阶段管道提取转录、音频特征和说话者切换信息。首先,通过transcribeOne.sh脚本进行转录和音频特征提取,然后通过diarizeOne.sh脚本进行说话者切换分析。最后,使用mergeDiarization.py脚本将所有信息合并,生成包含转录、音频特征和说话者切换信息的单一输出文件。
背景与挑战
背景概述
SPoRC(Structured Podcast Research Corpus)数据集由Blitt等人创建,旨在捕捉播客数据的多模态特性。该数据集包含了超过110万集的播客转录和元数据,以及超过37万集的说话者轮换和音频特征数据。通过整合这些数据,SPoRC为研究人类交流提供了丰富的信息资源。该数据集的构建始于2020年5月至6月,通过从Podcast Index获取播客级别的元数据,并从相关RSS源中抓取剧集级别的元数据,随后通过三阶段管道提取转录、音频和说话者轮换信息,最终将这些数据类型在剧集和说话者轮换级别上合并,并发布供未来非商业用途使用。
当前挑战
SPoRC数据集在构建过程中面临多项挑战。首先,播客数据的多模态特性要求在转录、音频特征提取和说话者轮换信息提取之间进行复杂的整合。其次,数据量巨大,处理和存储这些数据需要高效的计算资源和存储解决方案。此外,确保数据的质量和一致性也是一个重要挑战,特别是在处理不同来源和格式的数据时。最后,由于播客内容的动态性和多样性,如何有效地标注和分类这些数据以支持多样化的研究需求也是一个持续的挑战。
常用场景
经典使用场景
在语言学和计算社会科学领域,SPoRC数据集的经典使用场景主要集中在多模态数据分析上。通过整合播客的转录文本、音频特征和说话者切换信息,研究者能够深入探索人类交流的复杂性。例如,结合说话者的音调信息与说话者切换数据,可以揭示对话中的情感变化和互动模式。此外,通过将转录文本按说话者进行颜色编码,可以直观地展示对话中的重叠和轮换,从而为对话分析提供丰富的视觉和数据支持。
衍生相关工作
基于SPoRC数据集,研究者们开展了多项相关工作,推动了多模态数据分析技术的发展。例如,有研究利用该数据集开发了新的说话者识别算法,显著提升了识别的准确性和鲁棒性。此外,还有研究通过整合音频特征和转录文本,提出了新的情感分析模型,能够更准确地捕捉对话中的情感变化。这些工作不仅丰富了数据集的应用场景,也为相关领域的技术进步提供了有力支持。
数据集最近研究
最新研究方向
在播客研究领域,SPoRC数据集的最新研究方向主要集中在多模态数据的融合与分析上。该数据集不仅包含超过110万集的播客转录文本和元数据,还涵盖了37万集的说话者转换和音频特征数据。这些丰富的数据资源使得研究者能够深入探索人类交流的复杂性,特别是在说话者重叠、语调变化和情感分析等方面。通过结合转录文本、音频特征和说话者信息,研究者可以开发出更为精准的情感识别和对话分析模型,这对于提升语音助手、情感计算和人机交互等领域的技术水平具有重要意义。此外,SPoRC数据集的开放性和结构化特性,也为跨学科研究提供了坚实的基础,推动了播客内容分析、社会语言学和心理语言学等多个前沿领域的发展。
以上内容由遇见数据集搜集并总结生成



