ManaTTS
收藏github2025-02-22 更新2025-02-28 收录
下载链接:
https://github.com/MahtaFetrat/ManaTTS-Persian-Tacotron2-Model
下载链接
链接失效反馈官方服务:
资源简介:
ManaTTS 是一个公开发布的单扬声器波斯语音语料库,包含超过100小时的高质量音频(44.1 kHz),来源于 Nasl-e-Mana 杂志。
ManaTTS is a publicly released single-speaker Persian speech corpus containing over 100 hours of high-quality audio at 44.1 kHz, sourced from Nasl-e-Mana magazine.
创建时间:
2025-02-21
原始信息汇总
ManaTTS-Persian-Tacotron2-Model 数据集概述
数据集基本信息
- 名称: ManaTTS数据集
- 语言: 波斯语
- 类型: 单说话人语音合成数据集
- 规模: 超过100小时高质量音频
- 采样率: 44.1 kHz
- 来源: Nasl-e-Mana杂志(https://naslemana.com/)
模型信息
- 架构: Tacotron2
- 用途: 波斯语文本到语音合成
- 权重地址: https://huggingface.co/MahtaFetrat/Persian-Tacotron2-on-ManaTTS
- 实现代码: https://github.com/MahtaFetrat/Persian-MultiSpeaker-Tacotron2/
推理资源
- GitHub Notebook: inference.ipynb
- Google Colab: https://colab.research.google.com/drive/1e0BYsfMKRiikaA62umEyZejmivn0tTE8?usp=sharing
样本输出
- 样本目录: https://github.com/MahtaFetrat/ManaTTS-Persian-Tacotron2-Model/tree/master/output_samples
使用许可
- 数据集许可: CC0-1.0
- 模型实现许可: MIT License
- 版权声明: 包含多个贡献者的版权信息
引用信息
bibtex @article{fetrat2024manatts, title={ManaTTS Persian: A Recipe for Creating TTS Datasets for Lower-Resource Languages}, author={Mahta Fetrat Qharabagh and Zahra Dehghanian and Hamid R. Rabiee}, journal={arXiv preprint arXiv:2409.07259}, year={2024}, }
相关链接
- 数据集地址: https://huggingface.co/datasets/MahtaFetrat/Mana-TTS
- GitHub仓库: https://github.com/MahtaFetrat/ManaTTS-Persian-Speech-Dataset
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,尤其是语音合成技术中,高质量的数据集至关重要。ManaTTS数据集便是基于此理念构建而成,其汇聚了超过100小时的高品质音频,来源于伊朗盲人社区杂志《Nasl-e-Mana》。该数据集的构建采用了Tacotron2架构,旨在生成自然且高质量的波斯语语音。
特点
ManaTTS数据集的特点在于其规模宏大,是目前公开可获取的最大单扬声器波斯语音频语料库。此外,该数据集遵循Creative Commons CC-0协议,确保了数据的开放性和无限制的使用及分发,极大促进了语音合成领域的研究与应用。数据集的音频采样率为44.1 kHz,保证了音频的清晰度和质量。
使用方法
使用ManaTTS数据集的方法简便,提供了训练好的模型权重,存储于Hugging Face。用户可通过提供的推理笔记本来从文本生成语音。此外,数据集的输出样本及基准模型生成的样本均可在GitHub的相关目录中找到,便于研究人员和开发者进行对比和评估。
背景与挑战
背景概述
ManaTTS数据集,作为迄今为止公开可获取的最大的单扬声器波斯语语音库,其创建旨在推动波斯语语音合成技术的发展。该数据集由Mahta Fetrat及其团队开发,汇集了超过100小时的高质量音频,源自伊朗盲人社区月刊《Nasl-e-Mana》。基于Tacotron2架构构建的 ManaTTS,致力于生成自然且高质量的波斯语语音,对促进低资源语言语音合成研究领域的发展具有重要影响力。
当前挑战
在数据集构建方面, ManaTTS面临了两大挑战:一是确保音频数据的多样性和高质量,这对于语音合成模型的训练至关重要;二是遵守伦理使用准则,避免数据被用于语音模仿、身份盗窃或欺诈活动。在研究领域问题方面, ManaTTS解决了低资源语言中缺乏高质量语音数据集的问题,这对于发展波斯语文本到语音的转换技术是一个重大挑战。
常用场景
经典使用场景
在语音合成领域,ManaTTS数据集作为波斯语种的文本转语音(TTS)模型的训练基础,其经典的使用场景在于构建能够生成自然、高质量波斯语语音的系统。该数据集支持的研究人员能够利用其丰富的音频资源,通过Tacotron2架构,训练出符合特定语言特性的TTS模型。
实际应用
实际应用中, ManaTTS数据集及其衍生的TTS模型可用于开发高质量的屏幕阅读器和其他辅助技术,以服务于伊朗视障人士社区。这些技术的应用能够极大提升视障人士的生活质量,促进信息无障碍的社会环境建设。
衍生相关工作
基于ManaTTS数据集,已经衍生出多项相关工作,包括但不限于进一步的模型优化、跨语种语音合成技术的探索,以及针对不同语言特点的TTS模型研发。这些工作不仅推动了语音合成技术的进步,也为多语言信息处理和交流提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成



