波斯语音识别基准(PSRB)
收藏arXiv2025-05-27 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/PartAI/PSRB
下载链接
链接失效反馈官方服务:
资源简介:
PSRB是一个全面的波斯语音识别基准,旨在评估语音识别系统的性能,尤其是在低资源语言如波斯语中。该数据集包含来自各种语言和声学条件下的语音数据,旨在解决当前语音识别系统在现实世界应用中遇到的挑战,如领域不匹配和人口统计学偏差。PSRB数据集包含来自不同年龄、性别、口音和语义内容的音频片段,涵盖了正式和非正式的演讲风格,以及干净和嘈杂的声学环境。该数据集的创建过程包括数据收集、处理、标注和质量控制,以确保数据的质量和多样性。PSRB旨在帮助研究人员和工程师开发更强大、更包容的波斯语音识别技术,并为其他低资源语言的基准开发提供框架。
PSRB is a comprehensive Persian speech recognition benchmark developed to evaluate the performance of speech recognition systems, particularly in low-resource languages like Persian. The dataset encompasses speech data collected under diverse linguistic contexts and acoustic conditions, with the goal of addressing key challenges encountered by contemporary speech recognition systems in real-world applications, such as domain mismatch and demographic bias. The PSRB dataset includes audio clips from speakers across various age groups, genders, and accents, covering a broad range of semantic content, as well as both formal and informal speech styles, alongside clean and noisy acoustic environments. The development workflow of the PSRB dataset comprises data collection, preprocessing, annotation, and quality control procedures to ensure the quality and diversity of the collected data. PSRB aims to assist researchers and engineers in developing more robust and inclusive Persian speech recognition technologies, while also providing a replicable framework for benchmark development in other low-resource languages.
提供机构:
伊朗Part AI研究中心
创建时间:
2025-05-27
原始信息汇总
PSRB (Persian Speech Recognition Benchmark) - 1-Hour Sample 数据集概述
数据集摘要
- PSRB是一个用于评估波斯语自动语音识别(ASR)系统的综合性数据集
- 本1小时样本是完整PSRB语料库的代表性子集
- 包含多种口音、说话风格、说话者人口统计特征和声学环境
支持任务
- 自动语音识别(ASR)
语言
- 波斯语(Farsi)
数据集结构
数据实例
每个数据实例包含以下字段: json { "audio_path": "file1.wav", "text": "波斯语文本", "audio_duration": 11.88, "number_of_speakers": 3, "gender": "male", "age": "mix", "accents": "standard", "formality": "informal", "semantic_content": "artistic&literary", "data_source": "animation", "acoustic_environment": "noisy", "spontaneous": 1 }
数据字段说明
audio_path: .wav音频文件路径text: 波斯语文本转录audio_duration: 音频时长(秒)number_of_speakers: 说话者数量gender: 说话者性别age: 年龄分类accents: 地区口音或"标准"formality: 正式程度semantic_content: 语义主题/领域data_source: 数据来源类型acoustic_environment: 录音环境spontaneous: 是否为自发语音(1/0)
数据集创建
数据来源
- 新闻广播
- 电影和电视节目
- 播客
- 讲座
- 有声书
- 谈话节目
- 收集平台:Telewebion, Aparat, YouTube, Iranseda等
标注信息
- 由波斯语母语专家手动转录
- 严格的两轮质量控制审查
- 丰富的元数据标注
隐私信息
- 所有数据均已匿名化
- 不包含个人身份信息(PII)
使用注意事项
局限性
- 此样本可能无法完全反映完整PSRB语料库的多样性
许可信息
- 仅限研究和教育用途
引用信息
bibtex @misc{psrb2025, title={PSRB: A Comprehensive Benchmark for Evaluating Persian Automatic Speech Recognition Systems}, author={Nima Sedghiye and Sara Sadeghi and Reza Khodadadi and Farzin Kashani and Omid Aghdaei and Somayeh Rahimi and Mohammad Sadegh Safari}, year={2025}, publisher={Part AI Research Center}, note={Preprint} }
搜集汇总
数据集介绍

构建方式
波斯语音识别基准(PSRB)的构建过程涵盖了多维度数据采集与严格的质量控制。研究团队从Telewebion、Aparat等平台获取了涵盖播客、新闻、影视等12种数据源的波斯语语音素材,通过标准化采样率转换和1-100秒的音频分段处理确保数据一致性。采用双层标注体系:由语言学专家制定标注规范后,经筛选的优秀标注员进行初标,再由技术团队进行终审验证,重点把控波斯语特有的零宽不连字符(ZWNJ)和He-Kasreh等语法特征的准确标注。数据集最终包含3372条语音样本,总时长10.4小时,在形式化程度(28.6%正式 vs 71.3%非正式)、声学环境(47.33%纯净 vs 52.67%含噪)等维度实现平衡分布。
特点
PSRB基准的核心价值体现在其系统性的评估维度和语言学深度。数据集覆盖12种波斯语方言变体(如库尔德语、俾路支语等)及标准波斯语,包含756名不同年龄、性别说话人的语音样本,特别关注儿童语音(占比15.2%)和多人对话场景(占比21.3%)。创新性地引入语义内容分类体系,将语音数据划分为艺术文学、科技、宗教等13个语义域。技术层面,数据集提供传统WER/CER指标外,还提出替代加权词错误率(SW-WER)新指标,通过字符级差异加权处理波斯语特有的复合词分割错误,使评估结果更贴合实际应用场景。
使用方法
该基准支持多层次ASR系统评估:基础层面可直接计算WER/CER/SW-WER指标进行横向对比;进阶分析可依据元数据开展维度拆解,包括考察模型在特定方言(如马什哈迪口音SW-WER达53.3%)、声学环境(嘈杂场景平均CER升高57%)或说话人 demographic(儿童语音识别误差达成人2.1倍)等条件下的鲁棒性。研究者可通过Hugging Face平台获取子集,建议结合提供的音频时长分布直方图(峰值4-10秒)设计batch策略。对于商业系统评估,需通过API获取转录结果;开源模型(如Whisper)则可直接加载本地音频进行端到端测试,注意需处理波斯语特有的Unicode编码问题。
背景与挑战
背景概述
波斯语音识别基准(PSRB)是由伊朗Part AI研究中心于2025年提出的综合性评测基准,旨在解决波斯语作为低资源语言在自动语音识别(ASR)领域面临的评估难题。该数据集由Nima Sedghiyeh等学者构建,覆盖了10.4小时包含12种方言、756名说话人的语音数据,特别关注了正式/非正式语音、多说话人场景及复杂声学环境等现实条件。作为首个系统评估波斯语ASR性能的基准,PSRB通过引入方言多样性(如Baluchi、Kurdish等)和人口统计学平衡(儿童/成人、性别比例等),显著提升了波斯语语音技术研究的科学性和可重复性。其提出的Substitution Weighted WER(SW-WER)指标创新性地结合了字符级与词级错误率,为形态复杂的波斯语提供了更精准的评估框架,推动了低资源语言ASR研究的方法论进步。
当前挑战
PSRB面临的核心挑战体现在两个维度:领域问题层面,波斯语独特的零宽度非连接符(ZWNJ)导致的词边界歧义、He-Kasreh变音现象以及正式/非正式语体差异,使得传统WER指标难以准确反映ASR性能;数据集构建层面,需克服方言数据稀缺(如Mashhadi口音仅占0.8%)、儿童语音声学特征差异(音高较成人高37%)、以及多说话人场景中重叠语音分离等技术难题。实验表明,当前最佳模型在标准波斯语上CER为8.75%,但在方言场景下恶化至53.3%,揭示出现有系统对语言多样性的适应性不足。此外,商业模型与开源模型间19.3% vs 33.93%的WER差距,凸显了高质量标注数据稀缺对低资源语言发展的制约。
常用场景
经典使用场景
波斯语音识别基准(PSRB)作为波斯语自动语音识别(ASR)领域的权威评估工具,其经典应用场景聚焦于多维度测试环境下的模型性能验证。该数据集通过整合包含标准波斯语、12种地域口音、不同年龄层及正式/非正式语体的语音样本,为研究者提供了模拟真实语音复杂性的实验平台。尤其在评估模型对儿童语音、重叠对话和噪声环境的适应性方面,PSRB展现出独特价值,其10.4小时的精标注语音数据已成为检验ASR系统鲁棒性的黄金标准。
实际应用
在实际应用层面,PSRB数据集已成功支撑波斯语智能客服、教育辅助工具及医疗语音转录系统的开发。其包含的多样化声学场景(如电话通话、嘈杂环境等)使企业能优化产品在真实场景的识别准确率。伊朗科技公司Avanegar基于该数据集将商业ASR系统的词错误率降低至19.3%,显著提升了波斯语虚拟助手的用户体验。此外,数据集标注的口音差异数据正被用于开发适应不同地区的语音导航系统。
衍生相关工作
PSRB的发布催生了多个重要研究方向:其一,启发SLPL团队开发基于wav2vec2架构的波斯语预训练模型;其二,推动FastConformer等混合架构在波斯语ASR中的应用研究;其三,其提出的多说话人评估框架被扩展至阿拉伯语等闪含语系语言的基准构建。微软团队在ESB多语言基准中借鉴了PSRB的声学多样性设计理念,而Google Chirp V2的波斯语识别模块也采用该数据集进行对抗性测试。
以上内容由遇见数据集搜集并总结生成



