Trusted Media Challenge Dataset
收藏arXiv2022-08-16 更新2024-07-24 收录
下载链接:
tmc-dataset@aisingapore.org
下载链接
链接失效反馈官方服务:
资源简介:
Trusted Media Challenge Dataset是由AI新加坡创建的一个大型数据集,包含4380个伪造视频和2563个真实视频,用于研究深度伪造检测。数据集通过多种视频和音频操纵方法生成,特别关注亚洲内容和族群,以补充现有数据集的不足。该数据集通过用户研究和AI模型测试,展示了其在欺骗人类参与者方面的有效性,并可用于开发更鲁棒和较少偏见的深度伪造检测器。
Trusted Media Challenge Dataset is a large-scale dataset developed by AI Singapore, containing 4,380 forged videos and 2,563 authentic videos for deepfake detection research. It is generated through a range of video and audio manipulation techniques, with a particular emphasis on Asian content and ethnic groups to fill the gaps in existing datasets. This dataset has been validated via user studies and AI model tests, demonstrating its effectiveness in deceiving human participants, and can be utilized to develop more robust and less biased deepfake detectors.
提供机构:
AI新加坡
创建时间:
2022-01-13
搜集汇总
数据集介绍
构建方式
在数字媒体安全领域,构建高质量的伪造媒体检测数据集对于推动人工智能技术发展至关重要。Trusted Media Challenge (TMC) 数据集通过系统化流程构建,其数据源涵盖新闻节目、电视访谈及自由职业者录制的自拍视频,所有素材均获得使用授权。真实视频经过格式统一与分辨率调整后,采用多种前沿生成技术进行伪造处理,包括Deepfakes、FSGAN等视频篡改方法,以及StarGAN-VC、One-Shot VAE等音频合成技术。此外,数据集引入了唇部同步错误类型,通过组合不同真实视频的视音频轨道制造内容不匹配的样本。为模拟真实传播环境,还对视频施加了12类扰动(如天气效果、光照变化),对音频施加了3类扰动(如音量变化、高斯噪声),从而增强了数据集的复杂性与实用性。
特点
TMC数据集在伪造媒体检测领域展现出鲜明的特色。其核心在于同时涵盖视频与音频的双模态篡改,包含四种伪造类型:视音频皆伪、仅视频伪、仅音频伪以及视音频真实但内容不匹配,这为多模态检测模型提供了全面评估场景。数据集聚焦于亚洲人种内容,亚洲被试占比达72.65%,有效弥补了现有数据集中人种分布不均的缺陷,有助于减少检测模型因肤色与面部特征差异产生的偏差。此外,数据集规模包含6,943个视频,同时提供高(1080p)低(360p)两种分辨率,并引入了多样化的扰动处理,模拟了真实世界中的传输与压缩效应,大幅提升了检测任务的挑战性。
使用方法
该数据集主要服务于伪造媒体检测算法的开发与评估。研究人员可基于其训练集(包含4,380个伪造与2,563个真实视频)构建多模态深度学习模型,以同时分析视频帧序列与音频频谱特征,进而识别各类篡改痕迹。数据集中详尽的标签信息(如伪造类型、生成方法、扰动类型)支持细粒度的性能分析与消融实验。在模型验证阶段,可使用其隐藏测试集(分两阶段构建)进行客观评估,模拟真实场景下的泛化能力。此外,数据集附带的人因研究数据为对比人工智能与人类检测性能提供了基准,助力探索人机协同的检测策略。
背景与挑战
背景概述
随着深度伪造技术的迅猛发展,合成媒体能够轻易生成高度逼真的虚假内容,对社会与个体构成严重的信息安全威胁。为应对这一挑战,新加坡人工智能组织于2022年推出了Trusted Media Challenge数据集,旨在为检测多模态伪造媒体提供研究基础。该数据集由AI Singapore的研究团队主导构建,收录了总计6,943条真实与伪造视频,涵盖视频与音频的多种篡改手法,并特别聚焦于亚洲人群的面部与语音特征,以弥补现有数据集中种族分布的不足。其核心研究问题在于如何通过人工智能技术有效识别视听双模态的深度伪造内容,推动检测模型在真实场景中的鲁棒性与公平性。
当前挑战
该数据集致力于解决多模态深度伪造检测这一复杂领域问题,其挑战主要体现在两方面:其一,在技术层面,伪造媒体已发展出视频替换、语音转换及唇形同步错误等多种篡改类型,要求检测模型具备跨模态特征融合与细粒度异常感知能力;其二,在数据构建过程中,研究团队需克服高质量亚洲内容采集的困难,确保所有素材均获得使用授权,并通过添加多种视频与音频扰动以模拟真实传输环境,同时避免因过度聚焦单一族群而引入新的模型偏差。
常用场景
经典使用场景
在数字媒体取证领域,Trusted Media Challenge Dataset(TMC)作为一项专注于多模态伪造检测的基准数据集,其经典使用场景在于评估和开发针对视听双重伪造的深度学习模型。该数据集通过整合视频与音频的多种伪造技术,如Deepfakes、FSGAN及StarGAN-VC等,为研究者提供了一个模拟真实世界复杂伪造手段的实验平台。在学术竞赛如Trusted Media Challenge中,该数据集被广泛用于测试模型在检测面部替换、语音转换及唇语同步错误等方面的综合性能,推动了多模态检测方法的前沿探索。
实际应用
在实际应用中,TMC数据集为社交媒体平台、新闻机构及网络安全系统提供了关键的技术验证工具。例如,在虚假新闻识别与内容审核场景中,基于TMC训练的模型能够有效筛查经过高级视听篡改的误导性视频,防范政治操纵或金融欺诈等社会风险。此外,该数据集模拟的多种扰动(如天气效果、压缩噪声)增强了模型对传输损耗或编辑痕迹的适应性,使其在真实网络环境下的部署更具可行性,为构建可信媒体生态系统提供了技术支撑。
衍生相关工作
TMC数据集催生了一系列衍生研究,尤其在多模态融合检测与抗扰动模型设计方面影响显著。例如,Trusted Media Challenge竞赛中获胜方案(如Team Will的模型)采用了知识蒸馏与多分支网络结构,将视听特征与唇语同步分析相结合,启发了后续如AVFakeNet等跨模态检测框架的提出。同时,该数据集对亚洲内容的侧重促进了区域性研究如KoDF的扩展,推动了全球深度伪造检测在种族平衡性上的协同发展,成为后续数据集构建与算法评估的重要参考基准。
以上内容由遇见数据集搜集并总结生成



