Persian Dialect IDentification (PDID)
收藏arXiv2025-10-11 更新2025-10-14 收录
下载链接:
https://github.com/MH-Sameti/Accent invariant ASR
下载链接
链接失效反馈官方服务:
资源简介:
PDID数据集是一个多口音语料库,涵盖了10个地区波斯口音,为波斯语音识别中的口音变化提供了第一个系统性的基准,填补了多语言语音研究中的一个关键空白,并为未来低资源、语言多样性语言的研究提供了基础。数据集包含来自200多个小时的原始语音中约23小时的干净口音标注数据,样本被标准化为16kHz、单声道、16位WAV格式,并以3-30秒的片段进行分割。数据集的创建过程包括语音活动检测、说话人分割、基于静默的分割和语音-音乐分离等预处理步骤。该数据集旨在解决语音识别系统对音调和方言变化的敏感性,并通过抑制口音相关特征并鼓励语音识别模型学习口音中性表示来提高模型的鲁棒性。
The PDID dataset is a multi-accent corpus covering 10 regional Persian accents. It serves as the first systematic benchmark for accent variations in Persian speech recognition, filling a critical gap in multilingual speech research and laying a foundation for future studies on low-resource, linguistically diverse languages. The dataset contains approximately 23 hours of clean, accent-annotated speech data extracted from over 200 hours of raw speech. The samples are standardized to 16kHz, mono-channel, 16-bit WAV format, and segmented into 3-30 second clips. The dataset's creation includes preprocessing steps such as voice activity detection, speaker diarization, silence-based segmentation, and speech-music separation. This dataset aims to address the sensitivity of speech recognition systems to tonal and dialectal variations, and improve model robustness by suppressing accent-related features and encouraging speech recognition models to learn accent-neutral representations.
提供机构:
Department of Computer Engineering, Sharif University of Technology and Department of Computer Engineering, University of Tehran
创建时间:
2025-10-11
搜集汇总
数据集介绍

构建方式
在波斯语方言识别研究领域,PDID数据集的构建采用了系统化的多源采集策略。通过整合地方电视台、广播节目及Aparat、YouTube等在线平台的语音资源,原始语音数据总量超过200小时。借鉴EMILIA数据集的处理流程,研究团队实施了语音活动检测、说话人日志生成、静默分段及语音-音乐分离等预处理步骤。所有样本统一转换为16kHz采样率、单声道、16位深度的WAV格式,并进行响度归一化处理,最终切割为3至30秒的语音片段。经过严格质量筛选,从10种地域方言中保留约23小时纯净语音,其中塔吉克语、设拉子语和俾路支语方言仅用于测试集以验证模型鲁棒性。
特点
该数据集最显著的特征在于其方言覆盖的广度与深度,囊括伊斯法罕、亚兹德、洛雷斯坦、库尔德、俾路支、南部、北部、塔吉克、马什哈德及设拉子等10种具有代表性的波斯语地域变体。数据分布呈现现实场景下的自然不平衡特性,北方方言样本量达7632个约10.9小时,而南部方言仅147个约1.1小时,这种分布恰好反映了真实世界的方言使用频率。所有语音数据均经过严格的音质筛选与标准化处理,确保声学特征的一致性,同时通过保留三种稀缺方言作为独立测试集,为评估模型在未知方言上的泛化能力提供了理想基准。
使用方法
该数据集主要服务于方言鲁棒性语音识别系统的开发与评估。研究者可将其作为训练数据用于构建方言分类器,或通过Grad-CAM技术提取方言敏感频谱区域以实施掩码增强。在具体应用中,建议将数据集按7:3比例划分训练测试集,对塔吉克等稀缺方言应采用留出法验证。与CommonVoice波斯语子集联用时,可先基于标准波斯语预训练模型,再采用渐进式微调策略适配多方言场景。实验表明结合频谱掩码增强技术能显著提升Whisper等模型在方言语音上的识别准确率,词错误率最大降低幅度达14%。
背景与挑战
背景概述
波斯语方言识别数据集(PDID)由沙里夫理工大学与德黑兰大学的研究团队于2025年创建,旨在解决自动语音识别系统在方言多样性语言中的性能瓶颈。该数据集系统性地收录了伊斯法罕、亚兹德、洛雷等10种波斯语方言的语音样本,填补了多语言语音研究中波斯语方言基准的空白。通过整合电视广播与在线平台资源,PDID为低资源方言的鲁棒性研究提供了关键数据支撑,推动了跨方言语音技术在实际场景中的应用。
当前挑战
PDID面临的领域挑战在于波斯语方言间存在显著的音系与韵律差异,导致传统语音识别模型在方言场景下词错误率显著上升。构建过程中需克服方言数据稀缺性与质量不均的难题,原始语音经过去噪、分割与标准化处理,仅约11.5%的样本满足标注要求。此外,塔吉克语、设拉子语等边缘方言的有限样本量,对模型泛化能力提出了更高要求。
常用场景
经典使用场景
在语音技术研究领域,波斯方言识别数据集(PDID)作为首个系统性的波斯语多方言基准,主要应用于方言鲁棒性自动语音识别模型的开发与评估。该数据集通过覆盖伊斯法罕、洛雷斯坦、库尔德等10种地域性方言,为构建抗方言干扰的声学模型提供了关键数据支撑。研究人员利用其方言标注信息训练频谱图分类器,结合梯度加权类激活映射技术定位方言敏感区域,进而提升模型在复杂方言环境下的语音转写准确率。
实际应用
PDID数据集的实际价值体现在提升多方言地区的语音技术应用效能。在波斯语为主的智能客服系统中,该数据集支撑的方言鲁棒模型能准确理解不同地区的用户指令;教育科技领域可据此开发适应方言变体的发音评估工具;公共服务场景中则能改善政府热线、紧急响应系统的语音交互体验。其覆盖的塔吉克语、设拉子语等边缘方言样本,尤为有助于弥合数字服务在少数语言群体中的可用性差距。
衍生相关工作
基于PDID数据集衍生的经典研究包括方言自适应参数高效微调框架,如混合方言专家网络(MAS-LoRA)通过动态集成多方言声学特征显著降低识别错误率。在频谱图增强方向,研究者借鉴其掩码策略开发了层级自适应融合网络Qifusion-Net,实现端到端多方言识别。这些工作进一步推动了基于对比学习的方言特征解耦方法,以及结合大语言模型的生成式错误修正技术,共同构成了方言鲁棒语音识别的技术体系。
以上内容由遇见数据集搜集并总结生成



