BanglaFake

Name: BanglaFake
Creator: 孟加拉国达卡大学信息技术学院
Published: 2025-05-16 13:42:25
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/sifat1221/banglaFake

下载链接

链接失效反馈

官方服务：

资源简介：

BanglaFake数据集是一个专为孟加拉语深度伪造音频检测而设计的孟加拉语音频数据集，包含12260条真实语音和13260条深度伪造语音。数据集由达卡大学信息技术学院的研究人员创建，旨在解决低资源语言中深度伪造音频检测的挑战。数据集由真实语音和通过先进的端到端文本到语音(TTS)模型生成的合成语音组成，确保了高自然度和质量。该数据集已在Hugging Face上公开发布，为研究人员提供了宝贵的资源。

The BanglaFake dataset is a Bengali audio dataset purpose-built for deepfake audio detection. It contains 12,260 authentic speech samples and 13,260 deepfake speech samples. Developed by researchers from the Department of Information and Communication Technology, University of Dhaka, this dataset was created to address the challenges of deepfake audio detection in low-resource languages. It comprises authentic speech and synthetic speech generated using state-of-the-art end-to-end text-to-speech (TTS) models, ensuring high naturalness and quality. The dataset has been publicly released on Hugging Face, providing a valuable resource for researchers.

提供机构：

孟加拉国达卡大学信息技术学院

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

在低资源语言环境下，构建高质量的深度伪造音频数据集面临诸多挑战。BanglaFake数据集通过整合来自SUST TTS语料库和Mozilla Common Voice的真实孟加拉语语音样本，并采用基于VITS技术的先进文本转语音模型生成合成语音，最终形成包含12,260条真实语音和13,260条伪造语音的平衡语料库。数据构建过程严格遵循LJ Speech格式标准，确保数据的一致性和兼容性。

使用方法

该数据集主要服务于孟加拉语深度伪造检测领域的研究需求。研究者可利用其开展三方面工作：训练端到端的伪造检测模型，通过监督学习区分真实与合成语音；作为基准测试平台，评估不同检测算法在低资源语言环境下的性能表现；支持跨语言迁移学习研究，探索高资源语言知识向孟加拉语的迁移机制。数据集以标准化格式发布在Hugging Face平台，配套提供详细的元数据说明和使用指南。

背景与挑战

背景概述

BanglaFake数据集由孟加拉达卡大学信息技术研究所的研究团队于2025年推出，旨在解决孟加拉语这一低资源语言在深度伪造音频检测领域的研究空白。作为首个公开可用的孟加拉语深度伪造音频数据集，它包含12,260条真实语音和13,260条采用VITS技术生成的合成语音，平均意见得分（MOS）显示其合成语音自然度达3.40、清晰度达4.01。该数据集填补了南亚语言在AI安全研究中的关键缺口，为开发鲁棒的生物特征认证系统提供了重要基准，尤其对金融安全、司法取证等敏感领域的防欺诈研究具有开创性意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，孟加拉语复杂的音韵特征与有限的语音数据导致深度伪造检测模型难以捕捉细微的声学伪影，t-SNE可视化显示真实与伪造语音的特征空间存在显著重叠；在构建过程中，研究团队需克服低资源语言缺乏高质量语音库的困难，通过融合SUST TTS语料库与Mozilla Common Voice数据，并开发专门的VITS模型来保证合成语音的自然度，同时需解决孟加拉语方言多样性带来的语音一致性难题。

常用场景

经典使用场景

在语音合成与伪造检测领域，BanglaFake数据集为孟加拉语深度伪造音频研究提供了关键基准。该数据集通过整合真实语音样本与基于VITS技术生成的高质量合成语音，为研究者提供了丰富的训练与测试素材。其经典应用场景包括训练端到端的深度伪造检测模型，通过对比分析真实与合成语音的声学特征差异，提升模型对低资源语言伪造音频的识别能力。数据集采用的LJ Speech格式进一步确保了与现有语音处理框架的兼容性，便于跨平台研究。

解决学术问题

BanglaFake直接应对低资源语言在深度伪造检测中的两大挑战：数据稀缺性与声学特征细微性。通过提供超过2.5万条标注样本，该数据集填补了孟加拉语领域高质量伪造语音数据的空白，支持基于MFCC特征分析和t-SNE可视化等方法的检测算法开发。其自然度MOS评分达3.40的合成语音，有效模拟了现实攻击场景中的高欺骗性样本，为研究声纹生物识别系统的抗欺骗性能提供了标准化测试平台。

实际应用

该数据集的实际价值体现在多模态安全防御系统的构建中。金融机构可利用其训练声纹验证系统，识别以孟加拉语实施的语音诈骗；政府机构可基于数据集开发舆情监测工具，检测社交媒体中的伪造政治言论。此外，数据集支持跨语言检测模型迁移研究，如通过零样本学习将英语训练模型的检测能力扩展至孟加拉语场景，显著提升低资源地区的数字安全防护水平。

数据集最近研究