Fake Speech Wild (FSW)

Name: Fake Speech Wild (FSW)
Creator: 北京邮电大学
Published: 2025-08-14 19:56:30
License: 暂无描述

arXiv2025-08-14 更新2025-11-28 收录

下载链接：

https://github.com/xieyuankun/FSW

下载链接

链接失效反馈

官方服务：

资源简介：

Fake Speech Wild (FSW)数据集是一个包含来自四个不同媒体平台（哔哩哔哩、YouTube、抖音和喜马拉雅）的254小时真实和深度伪造音频的中文数据集，专注于社交媒体。该数据集由北京邮电大学的研究人员创建，旨在解决深度伪造音频在社交媒体平台上日益严重的问题。数据集包含146,097个音频样本，总时长为254.58小时。数据集的创建过程包括人工收集、专家验证和语音活动检测，以确保音频样本的真实性和有效性。该数据集可用于评估深度伪造音频检测技术的性能，并提高其鲁棒性。

Fake Speech Wild (FSW) dataset is a Chinese-language social media-focused dataset that contains 254.58 hours of real and deepfake audio sourced from four distinct media platforms: Bilibili, YouTube, Douyin, and Himalaya. It was developed by researchers from Beijing University of Posts and Telecommunications to address the growing problem of deepfake audio on social media platforms. The dataset consists of 146,097 audio samples with a total duration of 254.58 hours. The creation of this dataset involves manual collection, expert verification, and voice activity detection to ensure the authenticity and validity of the audio samples. This dataset can be utilized to evaluate the performance of deepfake audio detection technologies and enhance their robustness.

提供机构：

北京邮电大学

创建时间：

2025-08-14

搜集汇总

数据集介绍

构建方式

随着语音生成技术的飞速发展，深度伪造语音在社交媒体平台上广泛蔓延，对现有检测系统构成了严峻挑战。为应对这一现实困境，Fake Speech Wild (FSW) 数据集应运而生。该数据集从Bilibili、YouTube、抖音和喜马拉雅四个主流中文社交媒体平台采集语音样本，覆盖128个社交账号。采集过程以账号为单位，确保每个账号所发布内容具有一致的音频真实性属性，随后由四位专家进行人工验证以排除真假混杂的无效样本。最终，借助语音活动检测技术，将所有音频切割为短于10秒的片段，并丢弃不足1秒的短片段，总计获得了146,097个语音片段，总计254.58小时。数据集按照账号划分为训练集、开发集与评估集，比例约为2:1:7，且各子集的账号互不重叠，从而保障泛化能力评估的公平性。

特点

FSW数据集最显著的特征是其高度贴近现实的复杂性与跨平台多样性。与实验室环境下采集的“干净”数据集不同，FSW从四种不同的社交媒体平台收集数据，涵盖视频平台与纯音频平台，其音频内容类型涉及有声书、访谈、新闻等多种场景。数据集中真实语音与伪造语音分别来自82个与46个独立账号，确保了标注的可靠性。尤为重要的是，该数据集包含了大量基于音频语言模型生成的深度伪造音频，反映了当前社交媒体上最前沿的伪造手段。此外，不同平台在录音环境、背景噪声及压缩编码方式上的显著差异，使FSW成为评估检测模型跨域泛化能力的严苛基准，客观上揭示了现有先进检测方法在真实场景中性能大幅下降的根本原因。

使用方法

FSW数据集旨在为深度伪造语音检测领域提供一个真实、开放的评估平台。研究者可将其作为跨域测试集，评估基于公开数据集（如ASVspoof2019LA、CFAD、Codecfake）训练的反制模型的泛化能力。论文同时提供了基于自监督学习特征（如WavLM、XLS-R）与AASIST后端分类器的基线模型，并验证了MUSAN & RIR及Rawboost等数据增强策略在缓解平台间编码差异与噪声影响方面的有效性。最佳实践建议采用联合训练策略，即使用增强后的公开数据集与FSW训练集进行协同训练，实验表明，该方案可使模型在所有评估集上的平均等错误率降至3.54%。数据集已在GitHub上公开获取，支持研究者直接下载并复现基准实验。

背景与挑战

背景概述

随着语音生成技术的迅猛发展，深度伪造语音在社交媒体平台上广泛传播，对公共安全与社会信任构成严峻威胁。为此，谢远坤等研究人员于2024年联合中国传媒大学、中国科学院自动化研究所、北京理工大学及清华大学等机构，提出并构建了Fake Speech Wild（FSW）数据集，旨在推动跨域真实场景下的深度伪造语音检测研究。FSW数据集包含来自Bilibili、YouTube、抖音和喜马拉雅四个中国主流社交媒体平台的254小时真实与伪造语音，覆盖128个社会账号，是首个聚焦中文社交媒体环境的伪造语音数据集。该数据集不仅揭示了现有反制措施在跨域场景中的性能退化问题，而且通过建立基准测试，显著推动了深度伪造语音检测领域从实验室环境向现实世界应用的发展。

当前挑战

FSW数据集所面临的核心挑战在于解决深度伪造语音检测模型的跨域泛化问题。一方面，现有反制措施在公共数据集上表现优异，但在面对社交媒体平台复杂多变的环境时性能急剧下降，这主要源于音频内容类型、录制环境、压缩编码方式等方面的域差异。另一方面，数据集的构建过程中也遭遇多重困难，包括从多个平台筛选并手动验证音频真实性、处理不同平台特有的编码格式（如MP3、OGG等）、以及通过语音活动检测算法对长音频进行合理分段，确保数据的规模与质量均衡。此外，如何设计有效的数据增强策略以提升模型对背景噪声、混响及不同压缩方式的鲁棒性，亦是当前研究中的关键难题。

常用场景

经典使用场景

Fake Speech Wild (FSW) 数据集的核心应用在于评估与提升音频深度伪造检测模型在社交媒体平台上的泛化能力。该数据集汇聚了来自哔哩哔哩、YouTube、抖音及喜马拉雅四大主流平台的中文语音样本，涵盖128个社交账号，总计254.58小时的音频数据，并经过人工核查与语音活动检测（VAD）精确标注。研究者常以FSW作为真实世界域外测试集，系统性地检验在ASVspoof 2019 LA、CFAD等公开数据集上训练的反制措施（CM）在面对实际社交平台噪声、压缩编码及多样化语音内容时的鲁棒性，从而揭示跨域场景下检测性能衰退的本质，并推动从实验室条件向真实应用环境的跨越。

衍生相关工作

FSW数据集的提出催生了一系列旨在增强深度伪造语音检测泛化性的经典研究工作。其构建理念与评估框架直接呼应并拓展了Müller等人开创的'In the Wild'(ITW)数据集工作，将研究对象从单一平台、单语种扩展至跨平台、多语种场景，并覆盖了最新音频语言模型产生的伪造样本。后续研究纷纷基于FSW基准，探索了自监督学习模型（如WavLM-Large、Wav2Vec-XLS-R）与图注意力网络（AASIST）的融合架构，以提取域不变特征；同时，MUSAN & RIR和Rawboost等数据增强策略的优化组合也成为提升模型在复杂声学环境下鲁棒性的标准范式。此外，三训练集联合训练（19LA、CFAD、Codecfake与FSW）的实验范式被广泛采纳，成为评估真实世界深度伪造检测系统性能的参考配置。

数据集最近研究