SpeechFake
收藏arXiv2025-07-29 更新2025-07-31 收录
下载链接:
https://github.com/YMLLG/SpeechFake
下载链接
链接失效反馈资源简介:
SpeechFake是一个大规模的多语言语音深度伪造数据集,包含了超过300万个深度伪造样本,总时长超过3000小时,使用40种不同的语音合成工具生成。该数据集涵盖了广泛的生成技术,包括文本到语音、语音转换和神经声码器,并提供了多语言支持,涵盖了46种语言。SpeechFake被设计为专门用于语音深度伪造检测,旨在解决现有数据集规模和多样性有限的问题,以便更好地训练能够泛化到未见深度伪造模型的模型。
提供机构:
上海交通大学计算机科学与工程学院听觉认知与计算声学实验室人工智能研究所
创建时间:
2025-07-29
原始信息汇总
SpeechFake数据集概述
📘 数据集简介
- 名称: SpeechFake
- 类型: 大规模多语言语音深度伪造检测数据集
- 特点:
- 包含超过300万伪造样本
- 覆盖46种语言
- 使用30种不同的开源模型生成
- 包含丰富的元数据
- 涵盖现代生成技术的广泛覆盖
📥 数据集下载
下载方式
-
ModelScope下载
-
完整数据集下载命令: bash modelscope download --dataset inclusionAI/SPEECHFAKE
-
单文件下载命令示例: bash modelscope download --dataset inclusionAI/SPEECHFAKE README.md --local_dir ./dir
-
SDK下载示例: python from modelscope.msdatasets import MsDataset ds = MsDataset.load(inclusionAI/SPEECHFAKE)
-
-
Git下载
- 前提: 已正确安装LFS
- 命令: bash git lfs install git clone https://www.modelscope.cn/datasets/inclusionAI/SPEECHFAKE.git
💡 数据来源
真实语音数据集
| 数据集 | 语言 | 许可证 | 来源 |
|---|---|---|---|
| VCTK | 英语 | CC-BY-4.0 | Link |
| LibriTTS | 英语 | CC-BY-4.0 | Link |
| AISHELL-1 | 中文 | Apache-2.0 | Link |
| AISHELL-3 | 中文 | Apache-2.0 | Link |
| CommonVoice | 46种语言 | CC-0 | Link |
语音生成方法
| 编号 | 方法 | 类型 | 许可证 | 来源 |
|---|---|---|---|---|
| 1-30 | 30种不同方法 | TTS/VC/NV | 多种 | 详见原始README |
📝 引用
bibtex @inproceedings{huang2025speechfake, title={SpeechFake: A Large-Scale Multilingual Speech Deepfake Dataset Incorporating Cutting-Edge Generation Methods}, author={Huang, Wen and Gu, Yanmei and Wang, Zhiming and Zhu, Huijia and Qian, Yanmin}, booktitle={Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)}, pages={9985--9998}, year={2025} }
AI搜集汇总
数据集介绍

构建方式
SpeechFake数据集的构建采用了多源数据整合与前沿语音生成技术相结合的策略。研究团队从LibriTTS、VCTK等公开语音数据集中提取真实语音样本,同时运用40种不同的语音合成工具(包括30个开源模型和10个商业API)生成伪造语音。通过严格的预处理流程,包括文本清洗、音频重采样和格式标准化,确保数据质量。数据集采用双语(英语、中文)与多语言(46种语言)的双轨架构,并创新性地标注了生成方法、说话人ID等元数据,为研究提供多维分析基础。
特点
该数据集的核心优势体现在规模性与技术多样性两个维度:包含超过300万条深度伪造语音样本,总时长逾3,000小时,是目前最大的语音深度伪造检测数据集。其覆盖40种生成技术(包括文本转语音、语音转换和神经声码器),特别整合了扩散模型、大语言模型驱动合成等12种前沿技术。多语言支持涵盖印欧语系、汉藏语系等9大语系,其中非英语样本占比达50%,为跨语言检测研究提供了独特资源。
使用方法
研究者可通过分层采样策略利用该数据集:基础层面对二进制标签(真实/伪造)进行端到端模型训练;进阶层面可利用生成方法标签进行对抗性增强训练,或通过说话人ID研究身份克隆检测。多语言子集支持零样本迁移学习实验,商业API生成的隐藏测试集(BD-UT)专用于模型泛化能力评估。官方提供的AASIST和W2V+AASIST基准模型代码,包含加权交叉熵损失函数实现,可有效解决数据不平衡问题。
背景与挑战
背景概述
SpeechFake数据集由上海交通大学智能语音实验室与蚂蚁集团联合研发,于2025年正式发布,旨在应对深度伪造语音技术滥用带来的社会风险。作为当前规模最大的多语种语音深度伪造检测基准数据集,其包含超过300万条伪造语音样本,总时长逾3000小时,覆盖40种语音合成工具和46种语言。该数据集创新性地整合了文本转语音、语音转换和神经声码器等前沿生成技术,并首次系统性地解决了现有数据集在规模、技术多样性和语言覆盖等方面的局限性。其核心研究价值在于为构建具有强泛化能力的检测模型提供了关键数据支撑,推动了语音反欺骗领域从单一场景检测向跨语言、跨生成方法的通用检测范式转变。
当前挑战
在领域问题层面,SpeechFake需应对三大核心挑战:首先是生成技术快速演进带来的检测泛化难题,新型语音合成模型如扩散模型、大语言模型驱动的TTS系统不断突破自然度边界;其次是多语言场景下的检测鲁棒性挑战,不同语系的声学特征差异导致单一语言训练的模型性能显著下降;最后是真实场景中的对抗样本问题,包括语音拼接、背景噪声干扰等复杂攻击手段。在构建过程中,研究团队面临数据采集复杂度的指数级增长,需协调30个开源工具与10个商业API的异构系统集成,处理46种语言的语音标注与质量验证,以及平衡生成质量与伦理风险的精细控制。
常用场景
经典使用场景
SpeechFake数据集在语音深度伪造检测领域具有广泛的应用价值,其经典使用场景包括训练和评估深度伪造检测模型。该数据集包含超过300万条深度伪造语音样本,涵盖40种不同的语音合成工具和46种语言,为研究人员提供了丰富的训练数据。通过使用SpeechFake,研究人员能够构建更鲁棒的检测模型,以应对不断演变的深度伪造技术。数据集的多语言支持和多样化的生成方法使其成为跨语言和跨技术检测研究的理想选择。
实际应用
在实际应用中,SpeechFake数据集为开发高效的深度伪造检测系统提供了重要支持。这些系统可广泛应用于金融安全、身份验证和内容审核等领域,帮助防止深度伪造语音被用于欺诈和虚假信息传播。例如,金融机构可以利用基于SpeechFake训练的模型检测语音诈骗行为,保护用户免受经济损失。此外,社交媒体平台可以借助这些模型识别和过滤伪造的语音内容,维护网络环境的真实性。数据集的多语言特性还使其适用于全球化应用场景。
衍生相关工作
SpeechFake数据集已经衍生出多项经典研究工作,推动了语音深度伪造检测技术的发展。基于该数据集的研究包括对不同生成方法、语言多样性和说话人变异对检测性能影响的系统性分析。此外,研究人员还开发了多种先进的检测模型,如结合Wav2Vec2.0和AASIST的混合架构,显著提升了检测性能。这些工作不仅验证了数据集的实用价值,还为未来研究提供了重要参考。数据集的开源特性也促进了学术界的广泛合作和创新。
以上内容由AI搜集并总结生成



