Diffusion-Based Synthetic Speech Dataset (DiffSSD)
收藏arXiv2024-09-20 更新2024-09-26 收录
下载链接:
https://lorenz.ecn.purdue.edu/~kbhagtan/synthetic speech dataset zenodo v1/
下载链接
链接失效反馈官方服务:
资源简介:
Diffusion-Based Synthetic Speech Dataset (DiffSSD) 是由普渡大学和米兰理工大学联合创建的一个用于语音取证的扩散模型合成语音数据集。该数据集包含约200小时的标记语音,包括由8个开源和2个商业扩散模型生成的合成语音。数据集内容包括70,000个合成语音信号,涵盖11个不同的说话者,平均语音时长约为7.49秒。数据集的创建过程包括文本生成、语音合成和数据集分割,旨在解决现有合成语音检测方法在检测最新扩散模型生成语音时的不足。DiffSSD的应用领域主要集中在合成语音检测,特别是在防止合成语音的恶意使用方面。
Diffusion-Based Synthetic Speech Dataset (DiffSSD) is a synthetic speech dataset designed for speech forensics, jointly developed by Purdue University and Politecnico di Milano. It contains approximately 200 hours of labeled speech, generated by 8 open-source and 2 commercial diffusion models. The dataset includes 70,000 synthetic speech signals, covering 11 distinct speakers, with an average duration of about 7.49 seconds per signal. The dataset construction workflow encompasses text generation, speech synthesis, and dataset partitioning, aiming to address the shortcomings of existing synthetic speech detection methods when detecting speech produced by state-of-the-art diffusion models. The primary application scenarios of DiffSSD focus on synthetic speech detection, particularly in preventing the malicious misuse of synthetic speech.
提供机构:
普渡大学电气与计算机工程学院,西拉斐特,印第安纳,美国;米兰理工大学电子、信息与生物工程系,米兰,意大利
创建时间:
2024-09-20
搜集汇总
数据集介绍

构建方式
Diffusion-Based Synthetic Speech Dataset (DiffSSD) 的构建过程融合了多种先进技术,旨在提供一个全面且多样化的合成语音数据集。该数据集包含了约200小时的标记语音数据,其中包括由8个开源和2个商业扩散模型生成的合成语音。数据集的构建首先通过ChatGPT 3.5生成了5000行英文文本,这些文本涵盖了多种主题,如对话、天气、动物等。随后,这些文本被用于驱动10种不同的文本到语音(TTS)方法生成合成语音。此外,真实语音数据来源于LJ Speech和LibriSpeech数据集,确保了数据集的真实性和多样性。
特点
DiffSSD 数据集的显著特点在于其广泛的应用场景和高度的真实性。该数据集不仅包含了由传统方法生成的合成语音,还特别纳入了由最新扩散模型生成的语音,这使得数据集在检测现代合成语音技术方面具有极高的价值。此外,数据集中的合成语音来自11个不同的说话者,确保了语音样本的多样性和代表性。数据集的结构设计还考虑了训练、验证和测试集的划分,支持闭集和开集测试场景,从而为研究者提供了灵活且全面的实验环境。
使用方法
DiffSSD 数据集适用于多种语音分析和检测任务,特别是在语音取证和合成语音检测领域。研究者可以利用该数据集训练和评估合成语音检测算法,特别是在面对由扩散模型生成的复杂合成语音时。数据集的训练集、验证集和测试集的划分方式,使得研究者可以在闭集和开集场景下进行实验,从而全面评估检测算法的泛化能力。此外,数据集还提供了详细的文本输入和语音生成方法的描述,便于研究者复现和扩展相关研究。
背景与挑战
背景概述
Diffusion-Based Synthetic Speech Dataset (DiffSSD) 是由普渡大学和米兰理工大学的研究人员于2024年提出的一个专门用于语音取证的数据集。该数据集的核心研究问题是如何有效检测由扩散模型生成的高质量合成语音,以应对这些技术在欺诈、虚假信息传播和恶意冒充等领域的滥用。DiffSSD包含了约200小时的标记语音数据,涵盖了8种开源和2种商业化的扩散模型生成的合成语音。这一数据集的提出填补了现有检测工具在面对新型合成语音生成技术时的不足,为语音取证领域提供了重要的资源和基准。
当前挑战
DiffSSD的构建面临两大主要挑战。首先,合成语音生成技术的快速发展使得现有检测工具难以适应新型合成语音的特征,导致检测性能下降。其次,数据集的构建过程中需要整合多种开源和商业化的合成语音生成工具,确保数据集的多样性和代表性。此外,如何在闭集和开集场景下有效评估检测工具的性能,也是DiffSSD面临的重要挑战。这些挑战不仅推动了语音取证技术的发展,也为未来的研究提供了新的方向。
常用场景
经典使用场景
在语音取证领域,Diffusion-Based Synthetic Speech Dataset (DiffSSD) 数据集的经典使用场景主要集中在合成语音检测上。该数据集包含了由8种开源和2种商业扩散模型生成的约200小时的有标签语音数据。研究人员利用DiffSSD数据集训练和评估合成语音检测器,特别是在闭集和开集场景下,以验证这些检测器对新型扩散模型生成语音的识别能力。
解决学术问题
DiffSSD数据集解决了现有合成语音检测器在面对由扩散模型生成的高质量合成语音时表现不佳的问题。通过提供包含多种扩散模型生成语音的数据集,DiffSSD帮助学术界开发和验证能够有效检测这些新型合成语音的算法。这不仅提升了合成语音检测技术的准确性,还为语音取证领域的研究提供了新的基准和挑战。
衍生相关工作
基于DiffSSD数据集,研究人员已经开展了一系列相关工作,包括开发新的合成语音检测算法和评估现有检测器在新数据集上的表现。例如,一些研究团队利用DiffSSD数据集训练基于深度学习的检测模型,如Transformer网络和ResNet,以提高对扩散模型生成语音的检测精度。此外,DiffSSD还激发了对合成语音生成机制的深入研究,推动了语音合成技术的进一步发展。
以上内容由遇见数据集搜集并总结生成



