PodcastFillers
收藏arXiv2022-07-02 更新2024-07-24 收录
下载链接:
https://podcastfillers.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
PodcastFillers是由罗切斯特大学和Adobe研究院合作创建的大型语音数据集,专注于填充词(如‘uh’或‘um’)的检测与分类。该数据集包含来自199个公共播客节目的145小时语音数据,涵盖超过350名不同性别和背景的说话者。数据集通过结合语音活动检测(VAD)模型和自动语音识别(ASR)系统,自动生成填充词候选,并通过众包方式进行手动验证和标注,总计包含35000个填充词标注和50000个其他语音事件标注。PodcastFillers旨在为填充词自动检测和分类提供一个基准数据集,以加速媒体编辑中的填充词处理任务,提高语音内容创作的效率。
PodcastFillers is a large-scale speech dataset co-created by the University of Rochester and Adobe Research, focusing on the detection and classification of filled pauses (e.g., 'uh' or 'um'). This dataset includes 145 hours of speech data from 199 public podcast episodes, involving over 350 speakers with diverse genders and backgrounds. It automatically generates filled pause candidates by combining Voice Activity Detection (VAD) models and Automatic Speech Recognition (ASR) systems, and then conducts manual verification and annotation via crowdsourcing. In total, it contains 35,000 filled pause annotations and 50,000 annotations for other speech events. PodcastFillers aims to provide a benchmark dataset for automatic filled pause detection and classification, so as to accelerate the processing of filled pauses in media editing and improve the efficiency of speech content creation.
提供机构:
罗切斯特大学, Adobe研究院
创建时间:
2022-03-29
搜集汇总
数据集介绍

构建方式
在播客编辑领域,填充词(如‘uh’、‘um’)的检测与移除是一项常见且繁琐的任务。为突破数据稀缺的瓶颈,PodcastFillers数据集应运而生。其构建首先从SoundCloud精心挑选了199个性别平衡的英语播客节目,涵盖145小时、350余位发言者的语音。随后,研究团队设计了一条高效的标注流水线:利用语音活动检测(VAD)模型和商用自动语音识别(ASR)系统,将VAD激活而ASR未转录的区域作为填充词候选,从而识别出超过85,000个候选片段。这些片段经过众包标注,由多位标注者根据精细类别(如‘uh’、‘um’、笑声、呼吸等)进行判定,最终形成了包含35,000个填充词和50,000个其他声音事件标注的丰富数据集。
特点
PodcastFillers数据集在规模与多样性上均具有显著优势。其覆盖了超过350位发言者的自然自发语音,音频时长总计145小时,远优于以往基于实验室环境或特定人群(如口吃者)的小型数据集。数据集标注精细,不仅区分了‘uh’和‘um’等填充词类型,还囊括了笑声、呼吸、重复等播客中常见的非填充声音事件,总计超过85,000个标注片段。此外,所有播客音频均配有ASR转录文本,为多模态研究提供了便利。数据集的音高分布覆盖成人语音的典型范围(60–300 Hz),且训练、验证、测试集在性别与音高上保持均衡,确保了模型评估的泛化性与公平性。
使用方法
PodcastFillers支持两种灵活的检测流水线。其一为AVC-FillerNet,结合VAD、ASR与分类器:VAD定位语音区域,ASR剔除已转录的词汇段,剩余候选片段交由轻量级TC-ResNet8分类器进行事件级预测,实现高精度填充词定位与分类。其二为VC-FillerNet,适用于无ASR场景:VAD直接输出候选区域,由帧级分类器(TC-ResNet8+LSTM)以10毫秒分辨率逐帧预测,再聚合为事件。数据集提供了标准的训练/验证/测试划分(173/6/20个节目),并推荐使用wav2vec特征与0.1的VAD阈值以优化性能。研究者可直接基于此数据集进行模型训练、基准测试或消融实验,推动填充词检测领域的标准化评估。
背景与挑战
背景概述
在自然口语中,填充词如“uh”和“um”是说话者停顿思考时常见的语音现象,广泛存在于播客、视频访谈等自发语音内容中。对于内容创作者而言,手动从录音中检测并移除这些填充词是一项耗时且繁琐的任务。然而,现有研究多集中于基于文本的言语不流畅检测,或依赖小规模、受控环境下的数据集,难以推广到真实场景。为填补这一空白,Ge Zhu 等人于 2022 年联合罗切斯特大学与 Adobe 研究院,构建了 PodcastFillers 数据集。该数据集从 199 个播客剧集中采集了 145 小时的语音,涵盖超过 350 位说话者,精心标注了 35,000 个填充词及 50,000 个常见非填充事件(如呼吸、笑声、重复)。其发布为填充词自动检测与分类领域提供了首个大规模基准,显著推动了该方向的研究进展。
当前挑战
PodcastFillers 数据集所解决的领域挑战在于,现有填充词检测方法受限于数据稀缺与场景泛化不足。此前数据集如 UCLASS 或 SEP-28K 多聚焦于口吃人群,或在受控环境下录制,难以代表自然播客中多样化的语音风格、背景噪声及说话者特征。构建过程中亦面临多重挑战:首先,ASR 系统通常无法转录非词汇填充词,需设计巧妙管道——利用 VAD 与 ASR 的差异生成候选片段,但候选集中混有呼吸、笑声乃至 ASR 误识的词汇,需通过众包进行精确人工标注;其次,VAD 模型需在复杂背景噪声(如音乐、环境音)下保持高时间分辨率(10 毫秒)与鲁棒性,为此研究者通过 Scaper 工具合成 30 万条带噪训练样本,并精细调节信噪比范围以平衡召回率与精度;此外,填充词与相似发音词汇(如“umbrella”中的“um”)的混淆问题,要求分类器具备强判别能力,最终采用 wav2vec 嵌入与轻量级 TC-ResNet8 架构,在保持低延迟的同时实现高精度检测。
常用场景
经典使用场景
在语音内容创作与编辑领域,PodcastFillers 数据集被经典地应用于填充词检测与分类任务。该数据集包含 35,000 个标注的填充词以及 50,000 个其他常见语音事件(如呼吸、笑声和单词重复)的标注,覆盖 145 小时、来自 350 多位说话者的播客语音。研究者通常利用其构建端到端的填充词定位与分类流水线,例如结合语音活动检测(VAD)和自动语音识别(ASR)来生成候选片段,再通过轻量级分类器(如 TC-ResNet8)进行精确判别。这一场景为评估不同特征(如 wav2vec 与 log-mel)和架构(事件级分类器与帧级分类器)的性能提供了标准化的基准测试平台。
实际应用
在实际应用中,PodcastFillers 数据集及其衍生模型被广泛部署于播客和视频访谈的后期制作流程中,用于自动识别并标记‘呃’、‘嗯’等非流利填充词,从而大幅减少人工剪辑的时间与精力。例如,内容创作者可借助 AVC-FillerNet 流水线快速定位录音中的填充词位置,并结合分类结果进行选择性移除或替换。此外,该数据集还支持对呼吸声、笑声等非填充事件的识别,有助于实现更精细的音频编辑,如自动去除尴尬停顿或增强语音流畅度。这些功能已被集成至 Adobe 等公司的专业音频处理工具中,显著提升了语音内容生产的工作效率。
衍生相关工作
PodcastFillers 数据集的发布催生了多项经典后续工作。一方面,研究者基于其标注框架扩展了填充词检测的范畴,例如开发了针对多种语言(如中文‘那个’)的跨语种填充词检测系统。另一方面,该数据集被用作预训练模型的微调基准,如利用 wav2vec 2.0 和 HuBERT 等自监督模型进行填充词分类,进一步提升了在低资源场景下的检测鲁棒性。此外,相关工作还探索了将填充词检测与说话人识别、情感分析相结合的多任务学习框架,以及将检测结果应用于语音合成中的流利度增强。这些衍生研究共同推动了语音非流利处理领域从单一检测到综合理解的范式转变。
以上内容由遇见数据集搜集并总结生成



