ParsVoice

Name: ParsVoice
Creator: 伊朗德黑兰大学电子与计算机工程学院
Published: 2025-10-13 03:33:11
License: 暂无描述

arXiv2025-10-13 更新2025-11-05 收录

下载链接：

https://hf-mirror.com/datasets/MohammadJRanjbar/ParsVoice

下载链接

链接失效反馈

官方服务：

资源简介：

ParsVoice是一个大规模的多说话人波斯语音语料库，专为文本到语音（TTS）合成应用而设计。该数据集包含3526小时的语音，经过筛选后形成了1804小时的高质量子集，拥有超过470个说话人。ParsVoice是迄今为止最大的高质量波斯语音数据集，提供了与主要英语语料库相当的说话人多样性和音频质量。数据集的创建过程包括数据收集、智能音频分割、边界优化算法、多维度质量评估以及说话人识别等步骤。ParsVoice旨在促进波斯语音技术的发展，并为其他低资源语言提供一个模板。

ParsVoice is a large-scale multi-speaker Persian speech corpus designed specifically for text-to-speech (TTS) synthesis applications. This corpus contains 3526 hours of raw speech audio, and a filtered high-quality subset of 1804 hours is derived, comprising over 470 unique speakers. ParsVoice is the largest high-quality Persian speech dataset to date, offering speaker diversity and audio quality comparable to major English-language speech corpora. The construction process of ParsVoice includes multiple procedures such as data collection, intelligent audio segmentation, boundary optimization algorithms, multi-dimensional quality evaluation, and speaker identification. ParsVoice aims to promote the development of Persian speech technologies and serve as a template for other low-resource languages.

提供机构：

伊朗德黑兰大学电子与计算机工程学院

创建时间：

2025-10-13

搜集汇总

数据集介绍

构建方式

在波斯语语音资源匮乏的背景下，ParsVoice数据集通过自动化流水线从伊朗Seda平台的2000部有声读物中构建。该流程融合了基于ParsBERT的句子完整性检测模型，采用二进制搜索边界优化算法精确调整音频与文本对齐，并设计了波斯语专用的文本与音频质量评估框架。经过多阶段处理，原始3526小时语音被精炼为1804小时高质量子集，确保了数据在句子完整性和声学边界方面的严谨性。

使用方法

该数据集主要应用于文本到语音系统的训练与验证，使用者可通过其提供的说话人标签与高质量音频-文本对进行多说话人语音合成模型的开发。以XTTS模型为例，研究人员可直接利用ParsVoice进行零样本语音合成微调，通过批次训练与波斯语BPE词表扩展实现跨说话人语音生成。评估阶段可采用主观平均意见分与说话人相似度指标，结合词错误率等客观度量全面验证模型性能。

背景与挑战

背景概述

波斯语作为全球超过一亿人使用的语言，在语音技术领域长期面临高质量数据稀缺的困境。德黑兰大学研究团队于2025年发布的ParsVoice语料库，通过自动化处理2000部有声读物构建出3526小时原始语音数据，最终筛选出1804小时高质量多说话人语音，覆盖470余位发音人，规模达到现有波斯语数据集的十倍。该数据集专门针对文本转语音系统对清洁数据的需求，采用基于ParsBERT的句子完整性检测与边界优化算法，显著提升了波斯语语音合成的自然度与说话人相似度，为低资源语言的技术发展提供了重要基础设施。

当前挑战

在文本转语音领域，波斯语面临模型训练数据规模不足与质量参差的根本性挑战，现有数据集多受限于单说话人配置或商业使用限制。构建过程中需攻克三大技术难题：原始有声读物存在句子断裂与静音段干扰，需开发二进制搜索边界优化算法实现毫米级音频文本对齐；波斯语特有的字符体系与韵律特征要求建立定制化质量评估框架，涵盖文本字符有效性检测与音频信噪比分析；面对40%无标注叙述者的数据，需通过ECAPA-TDNN嵌入向量实现跨书籍的说话人身份聚类，确保多说话人语料库的标注一致性。

常用场景

经典使用场景

在波斯语语音技术研究领域，ParsVoice数据集主要应用于多说话人文本到语音合成系统的训练与评估。该数据集通过其1804小时的高质量语音内容和470多位不同说话人的语音特征，为构建具有自然语音生成能力和说话人适应性的TTS模型提供了坚实基础。研究人员利用该数据集训练端到端的语音合成模型，探索零样本语音克隆技术，并验证多说话人语音合成的性能表现。

解决学术问题

ParsVoice有效解决了波斯语语音合成研究中面临的数据稀缺问题，填补了低资源语言大规模高质量语音数据的空白。该数据集通过自动化处理流程生成的精确音频-文本对齐数据，为研究无音素表示的端到端语音合成模型提供了可能。其丰富的说话人多样性支持了说话人适应性和零样本语音克隆技术的研究，推动了波斯语语音合成技术向更自然、更个性化的方向发展。

实际应用

在实际应用层面，ParsVoice数据集支撑了波斯语智能语音助手、有声读物生成、语音导航系统等产品的开发。基于该数据集训练的TTS模型能够为视障人士提供高质量的有声阅读服务，在教育领域辅助语言学习，并在媒体内容制作中实现多说话人语音合成。这些应用显著提升了波斯语使用者的数字体验，缩小了波斯语与其他主流语言在语音技术应用方面的差距。

数据集最近研究