AI4T

Name: AI4T
Creator: Technical University of Cluj-Napoca, Romania; University “Politehnica” Bucharest, Romania; Fraunhofer AISEC, Germany
Published: 2025-06-11 19:03:26
License: 暂无描述

arXiv2025-06-11 更新2025-06-13 收录

下载链接：

https://github.com/davidcombei/AI4T

下载链接

链接失效反馈

官方服务：

资源简介：

AI4T数据集是一个包含真实世界音频深度伪造的多样化且具有挑战性的数据集，由来自YouTube、Instagram、TikTok和Facebook等在线平台的视频音频轨道组成。该数据集包括8种语言的196个伪造和192个真实视频，总时长约为13小时。数据集中的视频被用于传播政治虚假信息和金融欺诈，或用于娱乐目的。该数据集旨在解决当前深度伪造检测系统在面对真实世界样本时的性能差距问题，并为数据为中心的方法提供了实践基础。

The AI4T dataset is a diverse and challenging corpus of real-world audio deepfakes, which are derived from video audio tracks obtained from major online platforms including YouTube, Instagram, TikTok, and Facebook. This dataset encompasses 196 forged and 192 genuine videos across 8 languages, with a total duration of roughly 13 hours. The videos in this dataset are employed for purposes ranging from spreading political disinformation and financial fraud to entertainment. This dataset aims to address the performance gap of current deepfake detection systems when facing real-world samples, and provides a practical foundation for data-centric research methods.

提供机构：

Technical University of Cluj-Napoca, Romania; University “Politehnica” Bucharest, Romania; Fraunhofer AISEC, Germany

创建时间：

2025-06-11

原始信息汇总

数据集概述

基本信息

论文标题: Unmasking real-world audio deepfakes: A data-centric approach
会议: Interspeech 2025, Rotterdam, Netherlands
论文链接: arXiv:2506.09606

数据集来源

科学数据集

真实世界数据集

ITW
AI4T数据集: 位于AI4T dataset目录中，音频文件被分割为10秒片段

特征提取

预训练模型: wav2vec2-xls-r-2b
特征提取脚本:
- wav2vec2-xls-r-2b_all-layers_extractor.py (提取48层特征)
- wav2vec2-xls-r-2b_withRawboost_extractor.py (含Rawboost增强)
- wav2vec2-xls-r-2b_withCodec_extractor.py (含编解码器增强)

实验内容

基线深度伪造检测
- 脚本: baseline_logReg_all_layers.py (全层评估)
- 脚本: baseline_logReg_augm.py (数据增强版本)
数据集混合
- 脚本: train_logReg_iterative.py (评估127种组合)
- 输出示例: 显示不同组合在ITW和AI4TRUST上的EER值
数据剪枝
- 随机剪枝: pruning_random.py (10%-90%样本比例)
- 聚类剪枝: pruning_cluster.py (基于最近质心距离)
- 边界剪枝: pruning_margin.py (基于逻辑回归决策边界)
剪枝后数据增强
- 脚本: run_logReg_deepfake_detection_WAugm_margin_pruning.py

免责声明

数据集通过公开链接分享，不持有原始样本版权
链接有效性截至2025年2月，部分内容可能因平台政策失效

搜集汇总

数据集介绍

构建方式

AI4T数据集是通过从YouTube、Instagram、TikTok和Facebook等在线平台收集真实和伪造的音频样本构建而成。这些样本涵盖了八种语言，总时长达13小时。伪造样本主要用于政治虚假信息和金融诈骗等目的，而真实样本则从相同平台下载以保持内容一致性。为确保数据质量，所有样本均经过事实核查员或元数据验证，并将原始音频分割为10秒的片段，最终形成2005个伪造样本和2793个真实样本。

特点

AI4T数据集的特点在于其真实性和多样性。与实验室环境下生成的伪造音频不同，这些样本经过人工精心调整以提高可信度，缺乏明显的生成伪影，如发音错误或生成缺陷。数据集涵盖了多种语言和内容类型，包括政治虚假信息和娱乐用途的伪造音频，使其更贴近现实世界中的复杂场景。此外，该数据集对现有的伪造音频检测模型提出了显著挑战，即使是最先进的模型在该数据集上的表现也远低于其他实验室数据集。

使用方法

AI4T数据集主要用于评估和提升伪造音频检测模型的性能。研究人员可以将其作为测试集，验证模型在真实世界场景中的泛化能力。此外，该数据集支持数据为中心的研究方法，如通过数据集筛选、修剪和增强等技术优化模型训练。在使用时，建议将AI4T与其他实验室数据集结合，采用分层特征提取和逻辑回归分类器构建检测系统。数据集中提供的10秒音频片段可直接用于模型输入，无需额外预处理。

背景与挑战

背景概述

AI4T数据集由罗马尼亚克卢日-纳波卡技术大学、布加勒斯特理工大学及德国弗劳恩霍夫AISEC研究所的研究团队于2025年联合发布，旨在解决真实场景中音频深度伪造检测的泛化性问题。该数据集包含从YouTube、TikTok等平台采集的8种语言、总时长13小时的196个伪造音频与192个真实音频样本，聚焦政治虚假信息和金融诈骗等现实威胁。作为首个系统性整合在线社交平台深度伪造样本的开放数据集，AI4T突破了传统实验室合成数据的局限，为检测模型在复杂现实环境中的性能评估提供了重要基准。

当前挑战

该数据集面临双重挑战：在领域问题层面，真实场景的深度伪造音频具有人类参与优化的强欺骗性，导致现有基于SSL特征的检测模型在AI4T上的等错误率（EER）高达34.2%，显著高于实验室数据集；在构建层面，样本需通过多平台爬取与事实核查双重验证，且需平衡多语言时长分布与内容敏感性。此外，数据增强策略对实验室数据有效但难以提升真实场景检测性能，突显了数据分布差异带来的领域适应难题。

常用场景

经典使用场景

AI4T数据集在音频深度伪造检测领域具有重要应用价值，尤其在处理真实世界中的深度伪造音频样本时表现出色。该数据集包含来自YouTube、Instagram、TikTok和Facebook等多个平台的音频样本，涵盖了多种语言和场景，如政治虚假信息和金融诈骗。研究人员利用AI4T数据集训练和评估深度伪造检测模型，以提升模型在复杂真实环境中的检测能力。

衍生相关工作

AI4T数据集的推出催生了一系列相关研究，尤其是在数据中心方法和自监督学习领域。许多研究团队基于AI4T开发了新的检测算法，如使用XLS-R 2B模型和逻辑回归分类器的组合。此外，AI4T还促进了跨数据集性能评估的研究，为深度伪造检测的标准化和实际应用奠定了基础。

数据集最近研究