IndieFake Dataset (IFD)

Name: IndieFake Dataset (IFD)
Creator: 印度理工学院罗帕尔分校电气工程系
Published: 2025-06-27 01:21:45
License: 暂无描述

arXiv2025-06-27 更新2025-06-28 收录

下载链接：

https://indie-fake-dataset.netlify.app

下载链接

链接失效反馈

官方服务：

资源简介：

IndieFake数据集（IFD）是一个包含印度英语说话者真实和深度伪造音频的基准数据集。它旨在解决现有数据集中缺乏南亚口音的问题，并包含50名英语说印度人的27.17小时的真实和深度伪造音频。数据集包含11.3小时的真实音频样本和15.82小时的深度伪造音频样本，平均音频样本长度为5秒。IFD具有平衡的数据分布，并包括说话人级别的特征描述，这在ASVspoof21（DF）等数据集中是缺失的。该数据集已被评估用于音频深度伪造检测，并与现有的ASVspoof21（DF）和In-The-Wild（ITW）数据集进行了比较，证明了其有效性。

IndieFake Dataset (IFD) is a benchmark dataset containing genuine and deepfake audio from Indian English speakers. It aims to address the lack of South Asian accents in existing datasets, and comprises 27.17 hours of genuine and deepfake audio from 50 Indian English speakers. The dataset includes 11.3 hours of genuine audio samples and 15.82 hours of deepfake audio samples, with an average audio sample length of 5 seconds. IFD features a balanced data distribution and includes speaker-level feature descriptions, which are absent in datasets such as ASVspoof21 (DF). This dataset has been evaluated for audio deepfake detection, and benchmarked against existing datasets including ASVspoof21 (DF) and In-The-Wild (ITW), which validates its effectiveness.

提供机构：

印度理工学院罗帕尔分校电气工程系

创建时间：

2025-06-24

搜集汇总

数据集介绍

构建方式

IndieFake Dataset (IFD) 的构建过程体现了严谨的科学方法论和多元化的数据采集策略。该数据集通过四个精心设计的场景收集和生成数据：基于假设文本生成的深度伪造音频、使用同一说话者原始文本生成的深度伪造音频、采用其他说话者文本生成的跨说话者深度伪造音频，以及从YouTube公开视频中采集的真实音频样本。研究团队采用了多种先进的语音合成技术（如Tacotron、WaveGAN等）生成深度伪造样本，并运用高斯噪声、背景噪声等七种音频增强技术对原始样本进行数据增强，最终构建了包含50位印度英语说话者、总时长27.17小时的平衡数据集。数据采集过程严格遵循Creative Commons许可协议，所有音频样本均标准化为5秒长度，确保了数据的一致性和可比性。

特点

IFD数据集的核心价值在于其独特的南亚语言文化代表性。相较于ASVspoof21(DF)等现有数据集，IFD首次系统性地收录了50位印度英语说话者的样本，覆盖不同性别（38男/12女）、年龄层（18-75岁）和社会背景（名人、学者、普通公众等）。数据集包含8,164个真实样本（11.3小时）和11,396个深度伪造样本（15.82小时），通过严格的80:20主体独立划分方式保证模型泛化能力评估的有效性。特别值得注意的是，IFD创新性地设计了跨说话者文本转换的深度伪造场景，模拟了现实中的内容转移攻击，这种设计在当前公开数据集中具有开创性。数据集还提供了说话者级别的元数据标注，为细粒度的语音特征分析提供了可能。

使用方法

IFD数据集为音频深度伪造检测研究提供了标准化的评估框架。研究者可采用主体独立的训练测试划分方案，其中测试集特别包含仅含真实样本、仅含伪造样本以及混合样本的说话者，以全面检验模型性能。数据集兼容前端特征提取（MFCC/LFCC）和端到端（RawNet3）两种主流的检测方法，配套文档中提供了详细的基线模型实现方案。对于跨文化场景的泛化研究，建议将IFD与ASVspoof21(DF)或In-The-Wild数据集进行交叉验证实验。所有音频样本以16kHz采样率的WAV格式存储，研究团队推荐使用Equal Error Rate(EER)作为核心评估指标，同时提供了预处理脚本帮助实现音频时长标准化等操作。数据集官网还公开了样本参考片段和完整的标注元数据，便于研究者快速开展实验。

背景与挑战

背景概述

IndieFake Dataset (IFD) 是由印度理工学院Ropar分校的Abhay Kumar、Kunal Verma和Omkar More等人于2025年推出的音频深度伪造检测基准数据集。该数据集旨在解决现有音频深度伪造检测数据集中缺乏南亚口音多样性的问题，特别是针对印度英语使用者的语音样本。IFD包含27.17小时的音频数据，涵盖50名印度英语使用者的真实和伪造语音样本，数据分布均衡且包含说话者级别的特征标注。该数据集的推出填补了音频深度伪造检测领域在多元文化和语言背景下的研究空白，为开发更具普适性的检测模型提供了重要资源。

当前挑战

IFD数据集面临的主要挑战包括两个方面：在领域问题方面，音频深度伪造技术日益精湛，特别是针对南亚口音的高质量伪造语音检测面临巨大挑战，需要模型能够识别细微的声学特征差异；在构建过程方面，数据集采集需要平衡多样的说话者背景（包括不同性别、年龄和地区），同时确保伪造样本的高质量生成，这涉及到复杂的文本到语音转换技术和语音转换技术的应用。此外，数据集的标注和验证过程需要专家级的听觉分析，以确保样本标注的准确性，这些因素都增加了数据集构建的难度。

常用场景

经典使用场景

在音频深度伪造检测领域，IndieFake Dataset (IFD) 作为一个专注于印度英语说话者的数据集，为研究社区提供了一个重要的基准。该数据集广泛应用于训练和评估深度伪造检测模型，特别是在处理具有印度口音的英语音频时。通过包含多样化的说话者背景、年龄和性别，IFD能够有效模拟真实世界中的复杂场景，为模型提供更全面的训练数据。

实际应用

在实际应用中，IFD被广泛用于开发安全系统和身份验证工具，特别是在需要检测印度英语口音的深度伪造音频的场景中。例如，金融机构和政府部门可以利用基于IFD训练的模型来防止语音欺诈和身份盗用。此外，该数据集还可用于提升语音助手和自动客服系统的安全性，确保它们不会被伪造音频欺骗。

衍生相关工作

IFD的推出激发了一系列相关研究，特别是在音频深度伪造检测和说话者验证领域。许多研究团队利用该数据集开发了新的检测算法和模型，进一步推动了该领域的技术进步。此外，IFD还被用于跨数据集研究，帮助评估模型在不同语言和文化背景下的表现，为全球化的深度伪造检测提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集