five

Structured Podcast Research Corpus (SPoRC)|播客研究数据集|数据分析数据集

收藏
arXiv2024-11-12 更新2024-11-14 收录
播客研究
数据分析
下载链接:
https://github.com/blitt2018/SPoRC_data
下载链接
链接失效反馈
资源简介:
Structured Podcast Research Corpus (SPoRC) 是由密歇根大学信息学院创建的一个大规模播客数据集,涵盖了2020年5月至6月期间通过公共RSS订阅的所有英语播客的110万条转录记录。该数据集不仅包含文本转录,还包括音频特征和说话者转换信息,以及说话者角色推断和其他元数据。数据集的创建过程包括从Podcast Index获取RSS订阅信息,使用Whisper进行自动语音识别转录,以及使用pyannote进行说话者识别。SPoRC旨在解决播客生态系统的大规模计算分析问题,特别是在内容、结构和响应性方面的研究,为社区身份、信息扩散和偶然新闻曝光等现象的研究提供了基础。
提供机构:
密歇根大学信息学院
创建时间:
2024-11-12
原始信息汇总

SPoRC: 结构化播客研究语料库

数据集概述

  • 数据类型: 播客数据
  • 数据规模:
    • 超过110万个播客剧集的转录和元数据
    • 超过37万个播客剧集的说话者轮次和音频特征数据
  • 数据特点:
    • 捕捉播客数据的多模态特性
    • 提供丰富的洞察力,包括说话者音高信息和说话者轮次信息

数据集创建过程

  1. 数据来源:
    • 播客级别的元数据来自Podcast Index
    • 通过抓取2020年5月至6月期间的英语播客的RSS源获取剧集级别的元数据
  2. 数据处理:
    • 将RSS源中的mp3链接输入到三阶段管道中,提取转录、音频和说话者轮次信息
    • 最终将所有数据类型在剧集级别和说话者轮次级别合并
  3. 数据发布:

三阶段管道

  1. 转录和音频特征提取:
    • 使用transcribeOne.sh脚本进行转录和音频特征提取
    • 使用Whisper-base模型和openSmile进行音频特征提取
  2. 说话者轮次提取:
  3. 数据合并:

数据集示例

  • 说话者音高信息与说话者轮次信息叠加:
    • 图像路径: /figures/diarizationVisualization.png
  • 按说话者轮次着色的播客转录:
    • 图像路径: /figures/transcriptHighlightingFigure.png
AI搜集汇总
数据集介绍
main_image_url
构建方式
为了全面理解播客生态系统,我们构建了一个包含超过110万播客转录文本的庞大数据集,涵盖了2020年5月至6月期间通过公共RSS源提供的所有英语播客。该数据集不仅包括文本,还包含音频特征和部分37万集的说话者轮次,以及所有110万集的说话者角色推断和其他元数据。通过高度并行化的数据收集和处理管道,我们引入了新的数据和模型,用于从播客转录文本中提取主持人和嘉宾信息,从而实现对社交网络的研究。此外,我们还利用这些身份信息将特定对话轮次与其说话者关联起来。
特点
SPoRC数据集的显著特点在于其多模态信息的丰富性,涵盖了播客内容、音频特征、说话者角色及其元数据。该数据集不仅提供了大规模的文本数据,还通过音频特征提取和说话者识别技术,增强了数据的多维度分析能力。此外,数据集的构建时间切片为2020年5月至6月,这一时期包含了多个重大事件,为研究播客生态系统的时间响应性提供了理想的数据基础。
使用方法
SPoRC数据集可用于自然语言处理和计算社会科学研究,支持对播客内容、结构和响应性的深入分析。研究者可以利用该数据集进行主题建模、社交网络分析、说话者角色识别等多项研究。数据集的开放获取方式(非商业用途)和详细的构建方法,为学术界和业界提供了宝贵的研究资源。通过GitHub平台,研究者可以访问数据集及其相关代码,进一步推动播客生态系统的研究和发展。
背景与挑战
背景概述
随着播客作为一种独特的按需媒体形式,为庞大的听众群体提供高度多样化的内容,播客生态系统的计算分析需求日益增长。然而,由于数据的限制,对播客生态系统的大规模计算分析一直难以实现。为了填补这一空白,密歇根大学信息学院的Benjamin Litterer、David Jurgens和Dallas Card等人于2020年5月至6月期间,通过公共RSS源收集了超过110万播客的转录数据,构建了结构化播客研究语料库(SPoRC)。该数据集不仅包含文本,还涵盖了音频特征和说话者轮次,以及对110万个播客片段的说话者角色推断和其他元数据。SPoRC的推出为播客生态系统的持续计算研究打开了大门,推动了对这一流行且具有影响力的媒体形式的理解和应用。
当前挑战
SPoRC数据集在构建过程中面临多项挑战。首先,播客作为一种音频媒体,其原始形式的文本不可直接访问,这增加了转录和分析的难度。其次,播客由多个来源分发,每个片段的元数据各异,这使得数据的标准化和整合变得复杂。此外,自动语音识别(ASR)系统如Whisper在处理非主流口音、代码转换或低质量录音时可能出现错误,甚至产生幻觉文本。最后,说话者识别和角色标注的准确性对后续分析至关重要,但这些任务本身具有高度不确定性,容易传播到下游分析中。这些挑战共同构成了SPoRC数据集在解决播客生态系统研究问题时所必须克服的关键难题。
常用场景
经典使用场景
Structured Podcast Research Corpus (SPoRC) 数据集的经典使用场景在于大规模计算分析播客生态系统。通过提供超过110万集播客的转录文本,该数据集不仅包含文本内容,还涵盖了音频特征和说话者转换信息,为研究播客内容、结构和响应性提供了丰富的数据支持。研究者可以利用这些数据进行主题建模、社交网络分析以及情感分析等多维度研究,从而深入理解播客作为一种媒体形式的多样性和影响力。
实际应用
在实际应用中,SPoRC 数据集可用于播客内容的自动化分析和推荐系统开发。例如,通过分析播客内容中的主题和情感,可以为听众提供个性化的播客推荐服务。此外,该数据集还可用于播客广告效果评估、播客受众行为分析等领域,帮助播客创作者和平台优化内容策略和商业模型。
衍生相关工作
SPoRC 数据集的发布催生了一系列相关研究工作,包括播客内容的自动摘要生成、播客中的错误信息检测以及播客流行度预测等。这些研究不仅扩展了播客数据的应用范围,还推动了自然语言处理和计算社会科学领域的发展。未来,基于SPoRC数据集的研究将继续探索播客社区的身份认同、信息扩散和偶然新闻暴露等现象,进一步揭示播客生态系统的复杂性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

btc

该数据集可能包含金融市场交易数据,具体包括时间戳、开盘价、最高价、最低价、收盘价和交易量等信息。数据集分为训练集,包含2465个样本,总大小为175324字节。

huggingface 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录