ManaTTS-Persian-Speech-Dataset

github2024-10-15 更新2024-10-17 收录

下载链接：

https://github.com/MahtaFetrat/Anonymous-ManaTTS-Persian-Speech-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

ManaTTS是最大的公开可访问的单说话者波斯语语料库，包含大约86小时的音频，采样率为44.1 kHz。该数据集在开放的CC-0许可下发布，适用于教育和商业用途。这个数据集是波斯语的综合语音数据集，从Nasl-e-Mana杂志收集，涵盖了广泛的主题和领域，适合训练高质量的文本到语音模型。数据集附带了一个完全透明、开源的数据收集和处理管道，包括音频分割和强制对齐的工具。

ManaTTS is the largest publicly accessible single-speaker Persian speech corpus, containing approximately 86 hours of audio with a sampling rate of 44.1 kHz. Released under the open CC-0 license, this dataset is available for both educational and commercial use. As a comprehensive Persian speech dataset collected from Nasl-e-Mana Magazine, it covers a wide range of topics and domains, making it suitable for training high-quality text-to-speech models. The dataset also comes with a fully transparent, open-source data collection and processing pipeline, including tools for audio segmentation and forced alignment.

创建时间：

2024-10-15

原始信息汇总

ManaTTS-Persian-Speech-Dataset

概述

语言: 波斯语
时长: 约86小时
采样率: 44.1 kHz
许可: CC-0 1.0（允许教育和商业用途）
来源: Nasl-e-Mana 杂志
适用场景: 训练高质量的文本到语音模型

数据集

下载链接: ManaTTS数据集
样本数据: 样本数据目录

数据采集

原始数据: 从Nasl-e-Mana杂志网站爬取
爬虫脚本: Google Colab链接

处理流程

流程图: resources/image.png
Jupyter Notebook: Google Colab链接

训练模型

TTS模型: Persian-MultiSpeaker-Tacotron2-2412

贡献

贡献方式: 欢迎提交问题或拉取请求

许可

数据集: CC-0 1.0
处理流程: MIT 许可

伦理使用

使用目的: 仅限于研究和开发
禁止行为: 禁止语音模仿、身份盗窃或欺诈活动

致谢

感谢对象: Nasl-e-Mana 杂志

搜集汇总

数据集介绍

构建方式

ManaTTS-Persian-Speech-Dataset的构建过程始于从Nasl-e-Mana杂志网站上爬取原始音频数据。该数据集通过一个详尽的预处理管道进行处理，包括音频分割和强制对齐等步骤。这一管道不仅确保了数据的高质量，还提供了透明且可复现的数据处理流程。整个构建过程的详细步骤和工具均以Jupyter Notebook的形式公开，便于研究者和开发者复现和扩展。

特点

ManaTTS-Persian-Speech-Dataset作为最大的公开单说话人波斯语语料库，具有显著的特点。首先，它包含了约86小时的音频数据，采样率为44.1 kHz，覆盖了广泛的主题和领域，适合训练高质量的文本到语音模型。其次，该数据集采用了CC-0许可证，允许无限制的教育和商业使用，极大地促进了波斯语语音合成技术的研究与应用。

使用方法

使用ManaTTS-Persian-Speech-Dataset时，用户可以通过提供的链接下载完整数据集或随机样本。数据集的预处理管道以Jupyter Notebook的形式提供，用户可以按照步骤设置环境、放置原始音频和文本文件，并顺序执行Notebook中的单元格。此外，已在该数据集上训练的文本到语音模型及其代码也已公开，便于用户直接应用或进一步开发。

背景与挑战

背景概述

ManaTTS-Persian-Speech-Dataset是迄今为止最大的公开可访问的单说话人波斯语语料库，包含了约86小时的音频数据，采样率为44.1 kHz。该数据集由Nasl-e-Mana杂志收集，涵盖了广泛的主题和领域，适用于训练高质量的文本到语音模型。数据集的创建旨在推动波斯语语音合成技术的发展，其开放的CC-0许可证允许教育及商业用途。主要研究人员和机构通过提供一个完全透明的开源数据收集和处理管道，包括音频分割和强制对齐工具，展示了其在语音数据处理领域的创新和贡献。

当前挑战

ManaTTS-Persian-Speech-Dataset在构建过程中面临了多项挑战。首先，从Nasl-e-Mana杂志网站爬取原始数据需要开发高效的爬虫脚本，确保数据的完整性和准确性。其次，数据处理管道的设计和实施，包括音频预处理、分割和强制对齐，需要精确的技术和算法支持。此外，训练高质量的文本到语音模型不仅依赖于数据集的规模和多样性，还需要克服语音合成中的常见问题，如自然度和发音准确性。最后，数据集的伦理使用问题，如防止语音模仿和身份盗窃，也是必须面对的重要挑战。

常用场景

经典使用场景

ManaTTS-Persian-Speech-Dataset 最经典的使用场景在于训练高质量的波斯语文本转语音（TTS）模型。凭借其86小时的音频数据，涵盖了广泛的主题和领域，该数据集为研究人员和开发者提供了丰富的资源，以构建自然且流畅的波斯语语音合成系统。通过使用该数据集，研究者可以探索和优化TTS模型的发音准确性、语调自然度以及语音的连贯性，从而推动波斯语语音合成技术的发展。

实际应用

在实际应用中，ManaTTS-Persian-Speech-Dataset 可用于开发波斯语的语音助手、语音导航系统以及教育软件等。这些应用不仅提升了用户体验，还为波斯语使用者提供了更便捷的信息获取方式。此外，该数据集还可用于构建多语言语音合成系统，促进不同语言间的交流与理解，具有广泛的社会和商业价值。

衍生相关工作

基于 ManaTTS-Persian-Speech-Dataset，研究者们已经开展了一系列相关工作，包括波斯语多说话人Tacotron2模型的训练和优化。这些工作不仅提升了波斯语语音合成的质量，还为其他低资源语言的语音合成研究提供了参考。此外，该数据集的开放性和透明性激发了更多关于数据共享和协作的研究，推动了语音合成领域的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集