大规模转换语音数据库
收藏arXiv2024-06-07 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.04951v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究构建了一个名为‘大规模转换语音数据库’的数据集,由16种表现良好的语音转换方法生成,旨在推动源说话人验证任务的发展。数据集包含约327,600条转换语音样本,这些样本通过随机选择三个源语音样本对同一目标语音进行语音转换生成,模拟了三种不同的攻击者。创建过程中,采用了多种语音转换技术,确保数据集的多样性和实用性。该数据集主要应用于源说话人验证领域,旨在解决语音转换技术对自动说话人验证系统安全性的威胁问题,通过识别转换语音中的源说话人信息,提高系统的抗欺骗能力。
This study constructed a dataset named "Large-Scale Transformed Speech Database", which was generated by 16 well-performing speech conversion methods, aiming to advance the development of source speaker verification tasks. The dataset contains approximately 327,600 transformed speech samples, which are generated by randomly selecting three source speech samples to conduct speech conversion on the same target speech, simulating three distinct types of attackers. Multiple speech conversion technologies were adopted during the dataset creation process to ensure the diversity and practicality of the dataset. This dataset is primarily applied in the field of source speaker verification, aiming to address the security threats posed by speech conversion technologies to automatic speaker verification systems, and enhance the anti-deception capability of such systems by identifying the source speaker information within the transformed speech.
提供机构:
武汉大学计算机学院, 昆山市多模态智能系统重点实验室, 杜克大学昆山分校, OPPO北京AI中心
创建时间:
2024-06-07
搜集汇总
数据集介绍

构建方式
在语音安全领域,自动说话人验证系统正面临语音转换技术带来的严峻挑战,而源说话人验证作为一项新兴任务,亟需大规模数据支撑。为此,本研究基于Librispeech和VoxCeleb两大公开语料库,精心构建了一个大规模转换语音数据库。具体而言,选取Librispeech中1172位说话人的132553条语音作为源说话人数据,VoxCeleb2开发集中5994位说话人的1092009条语音作为目标说话人数据。通过16种先进的任意到任意语音转换方法(如AGAIN-VC、FreeVC、YourTTS等),对每条目标语音随机选取三条源语音进行转换,模拟三种攻击者场景。为优化存储并保持多样性,将VoxCeleb训练集均分为十份,每种转换方法使用其中一份生成约327600条转换语音,开发集和测试集则分别生成14622条和13530条。
特点
该数据集具有鲜明的多维度特色。首先,覆盖16种主流语音转换方法,包括基于生成对抗网络、扩散模型、最近邻搜索等不同技术路径的代表性系统,为源说话人验证研究提供了丰富的攻击场景。其次,数据集的构建策略巧妙平衡了规模与多样性,通过将目标语音集均分给不同转换方法,确保每种方法生成的语音数量均衡。尤为突出的是,数据集支持四种验证场景:同源同目标、异源同目标、同源异目标、异源异目标,并随机生成等量测试对,使得评估更加全面公正。此外,数据集不仅包含源说话人标签,还标注了具体的转换方法,为多任务学习和开放集方法识别研究奠定了坚实基础。
使用方法
该数据集为源说话人验证及相关研究提供了灵活的使用路径。研究者可直接利用提供的训练集、开发集和测试集,基于MFA-Conformer或ResNet34等基线系统进行模型训练与评估。在训练阶段,可采用自适应数据增强技术,如添加背景噪声或混响,并支持学习率预热与余弦衰减策略。对于多任务学习场景,推荐使用Adapter-based MFA-Conformer架构,通过在Conformer层后插入适配器模块,同时进行源说话人验证与转换方法识别。针对开放集转换方法识别问题,数据集提供了基于最近邻距离比的开集分类方法,通过计算测试样本到各类中心的欧氏距离比值,并设定阈值0.4来判别未知方法,实现了对已知方法98.36%和未知方法99.16%的平均识别准确率。
背景与挑战
背景概述
近年来,语音转换技术的飞速发展对自动说话人验证系统的安全性构成了严峻挑战。先进的语音转换算法能够生成高度逼真的伪造语音,使深度学习驱动的说话人验证系统面临被欺骗的风险。然而,现有研究多聚焦于区分真实语音与伪造语音,而忽视了识别攻击者(源说话人)这一关键维度。在此背景下,武汉大学与昆山杜克大学的研究团队于2024年构建了大规模转换语音数据库,旨在推动源说话人验证这一新兴任务的发展。该数据库基于Librispeech和VoxCeleb数据集,利用16种主流任意到任意语音转换方法生成大规模转换语音,并训练了基于MFA-Conformer架构的基线系统,为源说话人验证研究提供了坚实的数据基础与方法支撑。
当前挑战
该数据集面临的核心挑战源于语音转换技术对源说话人信息的隐匿性。不同转换方法在保留源说话人特征方面存在显著差异,如SigVC与KNN-VC等方法会大幅削弱源说话人信息,导致验证性能严重下降(等错误率高达31%以上)。构建过程中,如何从16种各具特色的转换方法中均衡生成高质量转换语音,同时确保训练数据的多样性与存储效率,成为一大难题。此外,跨域泛化问题尤为突出——当训练集混合多种转换方法时,模型在特定方法上的性能会有所妥协,虽提升了未知方法的泛化能力,但需精细平衡。最后,开放集转换方法识别任务要求系统能准确判别未见过的转换方法,这对特征提取与分类策略提出了更高要求。
常用场景
经典使用场景
在语音安全领域,大规模转换语音数据库的核心应用场景在于源说话人验证任务。该数据集通过整合16种主流任意到任意语音转换方法生成的转换语音,为研究者提供了丰富的训练与评估资源。借助MFA-Conformer等先进架构,研究者能够训练出高鲁棒性的基线系统,有效识别转换语音中残留的源说话人特征,从而抵御基于语音转换的欺骗攻击。该场景聚焦于从伪造语音中溯源攻击者身份,是反欺骗技术的重要延伸。
实际应用
在实际应用中,该数据集可部署于自动说话人验证系统的安全加固场景。例如,在金融、司法或智能设备等依赖声纹认证的领域,系统可利用基于该数据集训练的模型,实时检测并溯源通过语音转换发起的身份冒充攻击。结合转换方法识别功能,安全团队能够追溯攻击者使用的技术手段,从而针对性地升级防御策略。该数据集还支持多场景评估,如同源与异源说话人组合,确保了模型在真实复杂环境中的泛化能力。
衍生相关工作
基于该数据集,衍生了一系列具有影响力的研究工作。其中,基于适配器的多任务学习框架成为经典范例,通过在MFA-Conformer中嵌入轻量级适配模块,在不牺牲源说话人验证性能的前提下实现了高精度的转换方法识别。此外,开放集最近邻方法的引入为未知转换方法的检测提供了有效范式,其阈值自适应策略被后续研究广泛借鉴。该数据集还促进了跨领域迁移学习的发展,例如利用VoxCeleb预训练权重初始化模型,显著提升了在小样本转换方法上的验证效果。
以上内容由遇见数据集搜集并总结生成



