five

MCL-MLAAD

收藏
arXiv2025-08-06 更新2025-08-08 收录
下载链接:
https://www.dhs.gov/sites/default/files/publications/increasing_threats_of_deepfake_
下载链接
链接失效反馈
官方服务:
资源简介:
MCL-MLAAD数据集是一个多语言语音深度伪造源追踪数据集,包含38种语言的合成语音数据,由91种TTS模型产生。该数据集用于评估多语言源追踪模型在单语言和跨语言场景下的性能,以及评估模型对未见语言和说话人的泛化能力。数据集包含420.7小时的合成语音数据,覆盖了德语、罗曼语和斯拉夫语三大语系,并包含了四种流行的TTS架构。数据集还包括四种类型的噪声扰动,以模拟多样化的声学环境。

The MCL-MLAAD dataset is a multilingual speech deepfake source tracing dataset that contains synthesized speech data across 38 languages, generated by 91 distinct TTS models. This dataset is designed to evaluate the performance of multilingual source tracing models in both monolingual and cross-lingual scenarios, as well as their generalization capabilities towards unseen languages and speakers. It encompasses 420.7 hours of synthesized speech data, covering three major language families: Germanic, Romance, and Slavic, and includes four mainstream TTS architectures. Additionally, the dataset incorporates four types of noise perturbations to simulate diverse acoustic environments.
提供机构:
芬兰东部大学计算学院,香港城市大学语言学与翻译系,澳大利亚墨尔本大学计算与信息系统学院,新加坡Fortemedia
创建时间:
2025-08-06
搜集汇总
数据集介绍
main_image_url
构建方式
MCL-MLAAD数据集构建基于改进的Multi-Language Audio Anti-Spoofing (MLAAD)语料库,精选六种语言覆盖三大语系(日耳曼、罗曼、斯拉夫),并整合四种主流TTS架构。通过系统化添加噪声扰动(包括噪声、音乐、混响等),生成五种声学变体以增强现实场景鲁棒性。数据按60:20:20比例划分为训练集、开发集和测试集,确保各语言样本分布均衡。
使用方法
数据集支持四种实验协议:单语言与跨语言测试、语言家族内/间迁移、未见语言泛化及未见说话人鲁棒性评估。研究可采用DSP特征(如LFCC)或SSL前端(如XLS-R)结合不同分类器架构,通过宏平均F1分数量化模型性能。特别推荐采用混合训练策略和标签平滑技术以提升跨语言泛化能力,同时需注意低资源语言对的性能衰减现象。
背景与挑战
背景概述
MCL-MLAAD数据集由芬兰东芬兰大学、香港城市大学、墨尔本大学及新加坡Fortemedia等机构的研究团队于2025年联合发布,旨在建立首个多语言语音深度伪造源追踪基准。该数据集基于MLAAD语料库改进而成,涵盖6种语言(英语、德语、法语、意大利语、波兰语、俄语)和4种TTS架构生成的合成语音,包含11,700条经过噪声扰动的样本,总时长约27小时。其创新性在于设计了跨语言、跨语族及未见语言/说话者的系统评估协议,解决了传统单语言检测框架在全球化场景下的局限性,为语音取证领域提供了首个系统性的多语言溯源研究平台。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,需解决跨语言声学特征差异导致的模型泛化困境,如英语训练模型在斯拉夫语系中的性能衰减达33.94%;在构建过程中,需克服原始MLAAD数据中TTS模型与语言覆盖不均衡的问题,通过精心选择的语言家族分布(日耳曼、罗曼、斯拉夫)和噪声增强策略建立平衡语料。此外,伪说话者标签的聚类生成方法(基于ECAPA2嵌入的球形k-means)引入了潜在的身份标注噪声,这对评估模型抗说话者变异能力提出了新的验证需求。
常用场景
经典使用场景
MCL-MLAAD数据集专注于多语言语音深度伪造源追踪任务,其经典使用场景涵盖单语言和跨语言环境下的模型溯源研究。在单语言场景中,研究者可基于同一语言的训练和测试数据评估模型对特定TTS架构的识别能力;跨语言场景则通过语言家族划分(如日耳曼语系、罗曼语系、斯拉夫语系),系统探究语音生成模型在语言迁移中的特征泛化规律。该数据集通过六种语言和四种TTS架构的组合,为语音伪造溯源提供了标准化评估框架。
解决学术问题
该数据集有效解决了语音深度伪造领域三个核心学术问题:首先,通过设计语言平衡的数据分布,克服了传统单语言数据集在跨语言泛化研究中的局限性;其次,提出的四种实验协议(单/跨语言、语言家族、未见语言/说话人)首次系统量化了语言差异对源追踪任务的影响;最后,对比DSP与SSL特征在跨语言场景的表现,揭示了信号处理特征相较于预训练模型在语言无关特征提取上的优势。这些突破为构建鲁棒的多语言伪造检测系统提供了理论基础。
实际应用
在实际应用层面,MCL-MLAAD支持的关键场景包括:司法语音取证中伪造语音生成工具的溯源,通过分析声学特征确定可疑音频的生成架构;多语言内容审核平台对跨语言伪造内容的快速识别,尤其针对低资源语言的伪造语音检测;语音生物识别系统的安全增强,可区分真实语音与特定TTS模型生成的欺骗样本。数据集包含的噪声扰动变体(如混响、babble噪声)进一步提升了模型在真实复杂声学环境中的适用性。
数据集最近研究
最新研究方向
近年来,随着生成式人工智能技术的迅猛发展,语音深度伪造技术呈现出多语言化、高保真化的趋势,给数字内容安全带来了全新挑战。MCL-MLAAD数据集的建立标志着语音深度伪造溯源研究从单一语言检测向多语言场景拓展的重要转折。该数据集创新性地构建了涵盖六种语言、三种语系的基准测试框架,首次系统评估了跨语言场景下数字信号处理(DSP)与自监督学习(SSL)模型的溯源性能差异。研究揭示,SSL模型在单语言场景表现优异但存在跨语言迁移偏差,而DSP模型展现出更强的跨语系鲁棒性,这一发现为构建语言无关的深度伪造防御体系提供了理论依据。随着2025年国际语音通信协会(ISCA)设立合成语音溯源专题研讨会,该数据集正在推动语音取证研究从被动检测向主动溯源的战略转型,其提出的伪说话人聚类方法和四类评估协议已成为该领域方法论研究的新范式。
相关研究论文
  • 1
    Multilingual Source Tracing of Speech Deepfakes: A First Benchmark芬兰东部大学计算学院,香港城市大学语言学与翻译系,澳大利亚墨尔本大学计算与信息系统学院,新加坡Fortemedia · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作