LibriFake
收藏arXiv2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/NetaGlazer/ADD-GP
下载链接
链接失效反馈官方服务:
资源简介:
LibriFake是一个专为评估少样本和单样本语音深度伪造音频检测方法而设计的大规模数据集。它基于LibriSpeech数据集,通过使用最先进的语音克隆模型生成每个样本的对应合成版本。数据集被分为训练和测试子集,测试集包含约15%的说话者,以确保模型对新说话者的泛化能力。LibriFake旨在帮助研究人员评估少样本学习方法和单样本学习方法的性能,特别是在面对新型TTS模型时的适应性和鲁棒性。
LibriFake is a large-scale dataset specifically developed for evaluating few-shot and one-shot speech deepfake audio detection approaches. It is constructed based on the LibriSpeech dataset, with synthetic counterparts for each sample generated via state-of-the-art speech cloning models. The dataset is partitioned into training and test subsets, where the test set includes approximately 15% of the speakers, aiming to validate the model's generalization capability to unseen speakers. LibriFake is intended to help researchers assess the performance of few-shot learning and one-shot learning methods, especially their adaptability and robustness against novel TTS models.
提供机构:
巴伊兰大学,以色列
创建时间:
2025-05-30
原始信息汇总
ADD-GP数据集概述
数据集基本信息
- 官方实现:Few-Shot Speech Deepfake Detection Adaptation with Gaussian Processes
- 相关论文链接:未提供
- LibriFake链接:未提供
数据集内容
- 训练数据路径:
/data/Libri_dataset_11labs_new_train.csv - 验证数据路径:
/data/Libri_dataset_11labs_new_val.csv - 测试数据路径:
/data/Libri_dataset_11labs_new_test.csv
技术参数
- 训练批次大小:70
- 验证批次大小:230
- 训练TTS系统:f5, yourtts, valle, Tacotron2, whisper
- 验证TTS系统:eleven_labs
- 支持few-shot学习:100个样本
- 预训练模型检查点路径:
/path/to/pretrained/xlsr/xlsr4_model_epoch_0.pt
运行要求
- Python版本:3.9
- 依赖安装:
pip install -r requirements.txt
搜集汇总
数据集介绍

构建方式
LibriFake数据集的构建基于LibriSpeech语料库,通过多种先进的语音克隆模型(如yourTTS、Whisper-Speech、Vall-e-x等)为原始语音样本生成对应的合成版本。为确保评估的全面性,数据集的划分严格遵循说话人独立的准则,约15%的说话人被保留在测试集中,以验证模型对未知说话人的泛化能力。此外,针对个性化检测场景,研究团队还从VoxCeleb数据集中选取30名说话人,通过相同流程生成合成语音,进一步丰富了数据集的多样性。
使用方法
在使用LibriFake数据集时,研究者可采用端到端或特征提取加分类器的两种典型架构进行实验。数据集特别适合few-shot学习场景的评估,通过保留11Labs作为未知TTS模型,可以模拟现实中对新型伪造技术的快速适应能力。对于个性化检测任务,建议采用说话人特定的训练策略,利用数据集中提供的说话人标识信息构建个性化检测器。实验设计应包含跨模型泛化测试,以全面评估检测系统对未知伪造技术的鲁棒性。
背景与挑战
背景概述
LibriFake数据集由以色列巴伊兰大学的Neta Glazer等人于2025年提出,旨在应对语音克隆技术快速发展带来的安全挑战。该数据集基于LibriSpeech语料库构建,采用yourTTS、Whisper-Speech等五种前沿语音合成模型生成对应的伪造音频,专门用于评估小样本和单样本场景下的音频深度伪造检测方法。作为首个针对新型TTS模型泛化能力设计的基准数据集,LibriFake通过严格划分说话人集合,确保模型必须面对未知说话人的泛化挑战,推动了音频反欺骗领域从静态检测向动态适应范式的转变。
当前挑战
该数据集主要解决音频深度伪造检测中的模型泛化难题:现有检测器对已知TTS模型表现优异,但对11Labs等商业API生成的新型伪造音频识别率骤降42.48%。构建过程中面临双重挑战:技术层面需平衡XLS-R特征提取器与高斯过程分类器的协同优化,确保在冻结大部分网络参数时仍能保持特征判别力;数据层面因商业TTS系统的访问限制,难以获取大规模训练样本,迫使研究者开发基于混合空间增强(MixPro)的小样本适应方法。此外,个性化检测场景要求模型仅用单样本就能建立特定说话人的伪造特征表征,这对传统端到端架构的样本效率提出严峻考验。
常用场景
经典使用场景
LibriFake数据集在音频深度伪造检测(ADD)领域中被广泛用于评估和验证新型文本到语音(TTS)模型的检测能力。该数据集通过结合LibriSpeech的真实语音样本和多种先进语音克隆模型生成的合成样本,为研究人员提供了一个标准化的测试平台。其经典使用场景包括训练和测试深度伪造检测模型,尤其是在面对未知TTS模型时的泛化能力评估。
解决学术问题
LibriFake数据集解决了音频深度伪造检测中模型泛化能力不足的核心问题。通过提供多样化的合成语音样本,该数据集帮助研究人员开发能够快速适应新型TTS模型的检测算法。其意义在于推动了少样本学习和个性化检测技术的发展,为应对不断演变的语音伪造威胁提供了理论基础和技术支持。
实际应用
在实际应用中,LibriFake数据集为金融安全、身份认证和内容审核等领域提供了关键技术支持。例如,银行可以利用基于该数据集训练的检测模型识别诈骗电话中的伪造语音,社交媒体平台则可通过此类技术过滤虚假音频内容。这些应用显著提升了数字环境的安全性和可信度。
数据集最近研究
最新研究方向
随着语音合成技术的迅猛发展,LibriFake数据集在音频深度伪造检测领域的研究方向主要集中在少样本自适应检测方法的探索上。当前研究热点包括基于高斯过程的分类器设计,如ADD-GP框架,该框架通过结合深度核学习与高斯过程的灵活性,实现了对未知TTS模型生成语音的高效检测。此外,个性化深度伪造检测成为新兴研究方向,通过针对特定说话人的少量样本进行模型适配,显著提升了检测精度。该数据集的应用还涉及安全领域的热点问题,如防范基于语音克隆的金融诈骗和身份盗用,其构建策略和评估标准为学术界提供了重要的基准参考。
相关研究论文
- 1Few-Shot Speech Deepfake Detection Adaptation with Gaussian Processes巴伊兰大学,以色列 · 2025年
以上内容由遇见数据集搜集并总结生成



