five

ParsVoice

收藏
arXiv2025-10-13 更新2025-11-05 收录
下载链接:
https://hf-mirror.com/datasets/MohammadJRanjbar/ParsVoice
下载链接
链接失效反馈
官方服务:
资源简介:
ParsVoice是一个大规模的多说话人波斯语音语料库,专为文本到语音(TTS)合成应用而设计。该数据集包含3526小时的语音,经过筛选后形成了1804小时的高质量子集,拥有超过470个说话人。ParsVoice是迄今为止最大的高质量波斯语音数据集,提供了与主要英语语料库相当的说话人多样性和音频质量。数据集的创建过程包括数据收集、智能音频分割、边界优化算法、多维度质量评估以及说话人识别等步骤。ParsVoice旨在促进波斯语音技术的发展,并为其他低资源语言提供一个模板。

ParsVoice is a large-scale multi-speaker Persian speech corpus designed specifically for text-to-speech (TTS) synthesis applications. This corpus contains 3526 hours of raw speech audio, and a filtered high-quality subset of 1804 hours is derived, comprising over 470 unique speakers. ParsVoice is the largest high-quality Persian speech dataset to date, offering speaker diversity and audio quality comparable to major English-language speech corpora. The construction process of ParsVoice includes multiple procedures such as data collection, intelligent audio segmentation, boundary optimization algorithms, multi-dimensional quality evaluation, and speaker identification. ParsVoice aims to promote the development of Persian speech technologies and serve as a template for other low-resource languages.
提供机构:
伊朗德黑兰大学电子与计算机工程学院
创建时间:
2025-10-13
搜集汇总
数据集介绍
main_image_url
构建方式
在波斯语语音资源匮乏的背景下,ParsVoice数据集通过自动化流水线从伊朗Seda平台的2000部有声读物中构建。该流程融合了基于ParsBERT的句子完整性检测模型,采用二进制搜索边界优化算法精确调整音频与文本对齐,并设计了波斯语专用的文本与音频质量评估框架。经过多阶段处理,原始3526小时语音被精炼为1804小时高质量子集,确保了数据在句子完整性和声学边界方面的严谨性。
使用方法
该数据集主要应用于文本到语音系统的训练与验证,使用者可通过其提供的说话人标签与高质量音频-文本对进行多说话人语音合成模型的开发。以XTTS模型为例,研究人员可直接利用ParsVoice进行零样本语音合成微调,通过批次训练与波斯语BPE词表扩展实现跨说话人语音生成。评估阶段可采用主观平均意见分与说话人相似度指标,结合词错误率等客观度量全面验证模型性能。
背景与挑战
背景概述
波斯语作为全球超过一亿人使用的语言,在语音技术领域长期面临高质量数据稀缺的困境。德黑兰大学研究团队于2025年发布的ParsVoice语料库,通过自动化处理2000部有声读物构建出3526小时原始语音数据,最终筛选出1804小时高质量多说话人语音,覆盖470余位发音人,规模达到现有波斯语数据集的十倍。该数据集专门针对文本转语音系统对清洁数据的需求,采用基于ParsBERT的句子完整性检测与边界优化算法,显著提升了波斯语语音合成的自然度与说话人相似度,为低资源语言的技术发展提供了重要基础设施。
当前挑战
在文本转语音领域,波斯语面临模型训练数据规模不足与质量参差的根本性挑战,现有数据集多受限于单说话人配置或商业使用限制。构建过程中需攻克三大技术难题:原始有声读物存在句子断裂与静音段干扰,需开发二进制搜索边界优化算法实现毫米级音频文本对齐;波斯语特有的字符体系与韵律特征要求建立定制化质量评估框架,涵盖文本字符有效性检测与音频信噪比分析;面对40%无标注叙述者的数据,需通过ECAPA-TDNN嵌入向量实现跨书籍的说话人身份聚类,确保多说话人语料库的标注一致性。
常用场景
经典使用场景
在波斯语语音技术研究领域,ParsVoice数据集主要应用于多说话人文本到语音合成系统的训练与评估。该数据集通过其1804小时的高质量语音内容和470多位不同说话人的语音特征,为构建具有自然语音生成能力和说话人适应性的TTS模型提供了坚实基础。研究人员利用该数据集训练端到端的语音合成模型,探索零样本语音克隆技术,并验证多说话人语音合成的性能表现。
解决学术问题
ParsVoice有效解决了波斯语语音合成研究中面临的数据稀缺问题,填补了低资源语言大规模高质量语音数据的空白。该数据集通过自动化处理流程生成的精确音频-文本对齐数据,为研究无音素表示的端到端语音合成模型提供了可能。其丰富的说话人多样性支持了说话人适应性和零样本语音克隆技术的研究,推动了波斯语语音合成技术向更自然、更个性化的方向发展。
实际应用
在实际应用层面,ParsVoice数据集支撑了波斯语智能语音助手、有声读物生成、语音导航系统等产品的开发。基于该数据集训练的TTS模型能够为视障人士提供高质量的有声阅读服务,在教育领域辅助语言学习,并在媒体内容制作中实现多说话人语音合成。这些应用显著提升了波斯语使用者的数字体验,缩小了波斯语与其他主流语言在语音技术应用方面的差距。
数据集最近研究
最新研究方向
在波斯语语音合成领域,ParsVoice数据集的推出标志着低资源语言技术发展的关键突破。该数据集通过构建自动化处理流程,将原始有声读物转化为高质量语音文本对齐数据,显著提升了多说话人TTS系统的训练效果。前沿研究聚焦于零样本多语言合成模型的适配优化,利用XTTS框架在波斯语上实现了3.6自然度MOS与4.0说话人相似度SMOS的优异表现。这一进展不仅缓解了波斯语与高资源语言间的技术鸿沟,更通过公开数据集推动了跨语言语音技术的均衡发展,为低资源语言的数字化进程注入了新动力。
相关研究论文
  • 1
    通过伊朗德黑兰大学电气与计算机工程学院 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作