MnTTS2
收藏arXiv2022-12-11 更新2024-06-21 收录
下载链接:
https://github.com/ssmlkl/MnTTS2
下载链接
链接失效反馈官方服务:
资源简介:
MnTTS2是由内蒙古大学开发的开放源代码多说话人蒙古语文本到语音合成数据集。该数据集由三位专业蒙古语播音员录制,每位播音员录制10小时,总计30小时。数据内容涵盖多个主题,如政治、文化、经济、体育等。创建过程中,文本内容经过精心收集和预处理,音频录制在标准录音工作室进行,确保高质量。MnTTS2旨在支持蒙古语TTS研究,特别是用于构建多说话人TTS模型,以满足实际应用需求。
MnTTS2 is an open-source multi-speaker Mongolian text-to-speech (TTS) synthesis dataset developed by Inner Mongolia University. It consists of recordings from three professional Mongolian broadcasters, with each speaker contributing 10 hours of audio, amounting to a total of 30 hours. The dataset covers a wide range of topics including politics, culture, economy, sports and other fields. During its creation, the text materials were carefully collected and preprocessed, and the audio was recorded in a standard recording studio to ensure high data quality. MnTTS2 is intended to support Mongolian TTS research, particularly for the development of multi-speaker TTS models to fulfill practical application requirements.
提供机构:
内蒙古大学
创建时间:
2022-12-11
搜集汇总
数据集介绍

构建方式
在低资源语言语音合成研究领域,构建高质量数据集是推动技术进步的关键。MnTTS2数据集的构建遵循了系统化的流程,首先从网络与电子书籍中广泛爬取了涵盖政治、文化、经济、体育等多领域的23,801句蒙古文文本,并进行了人工筛选以去除敏感内容。针对蒙古文粘着性语言特性带来的谐波现象,研究团队将传统蒙古文文本转换为拉丁字母序列,这一预处理包括编码校正、拉丁转换与文本规范化三个步骤。音频采集环节邀请了三位母语为蒙古语的专业播音员,在标准录音棚内使用专业设备进行录制,每位播音员贡献了约10小时的语音数据,总时长达到30小时。录制后,由志愿者对音频与文本进行严格的对齐与质检,确保数据的高质量与一致性。
特点
MnTTS2数据集作为蒙古语语音合成领域的重要资源,其显著特点在于多说话人设计与大规模高质量语料。该数据集包含了三位女性蒙古语播音员的语音,总时长约30小时,相较于其前身MnTTS单说话人8小时的数据,在说话人多样性与数据规模上实现了显著扩展。文本内容覆盖多个主题领域,句子长度与时长分布符合自然语言规律,统计数据呈现正态分布特征。所有音频以44.1kHz采样率、16位精度保存,文本采用UTF-8编码,文件结构清晰规范。数据集的构建充分考虑了蒙古语的语言特性,通过拉丁化转换有效缓解了传统书写形式带来的建模挑战,为构建鲁棒的多说话人语音合成系统奠定了坚实基础。
使用方法
MnTTS2数据集适用于训练与评估多说话人蒙古语端到端语音合成模型。研究者可依据其提供的文件夹结构,直接读取对应说话人的音频文件(.wav格式)与转写文本(.txt格式)进行模型训练。为验证数据集的有效性,原论文构建了基于FastSpeech2声学模型与HiFi-GAN声码器的基线系统;具体实施时,需先利用Tacotron2模型为每位说话人提取时长信息,进而训练多说话人FastSpeech2模型以生成梅尔频谱,最后通过独立训练的HiFi-GAN声码器合成高质量波形。评估阶段可采用自然度平均意见分(N-MOS)与说话人相似度平均意见分(SS-MOS)对合成语音进行主观评测。该数据集遵循知识共享许可协议,支持学术与商业用途,为低资源语言语音合成研究提供了可复现的基准与数据支撑。
背景与挑战
背景概述
在低资源语言语音合成研究日益受到学术界与工业界关注的背景下,内蒙古大学的研究团队于2022年公开了MnTTS2数据集,这是一个开源的多说话人蒙古语文语转换合成数据集。该数据集由三名专业蒙古语播音员录制,总时长约30小时,文本内容涵盖政治、文化、经济、体育等多个领域,旨在解决蒙古语作为官方语言却缺乏高质量公开语音数据的问题。MnTTS2的发布不仅延续了此前单说话人MnTTS数据集的工作,还通过增加说话人多样性和数据规模,为蒙古语智能信息处理提供了关键资源,对促进少数民族语言技术发展具有显著影响力。
当前挑战
MnTTS2数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上,蒙古语作为一种黏着性语言,存在严重的谐音现象和字母在不同语境下的形态变化,这给文本到语音的准确映射带来了固有难度;同时,低资源语言缺乏大规模训练数据,使得现有语音合成模型难以达到实际应用所需的性能。在构建过程中,挑战包括文本预处理时需将传统蒙古文转换为拉丁序列以避免编码错误,以及录音时需确保三位播音员在专业录音棚中保持一致的发音质量、停顿节奏和语调控制,后期还需通过人工校对实现音频与文本的精确对齐,这些步骤均对数据集的规范性与可用性提出了较高要求。
常用场景
经典使用场景
在低资源语言语音合成领域,蒙古语作为全球超过千万人使用的代表性语言,长期以来面临公开数据稀缺的挑战。MnTTS2数据集通过提供三位专业播音员录制的30小时高质量多说话人语音,为构建稳健的蒙古语文本转语音模型奠定了数据基础。该数据集最经典的应用场景在于为学术界与工业界提供标准化的训练与评估基准,支持非自回归模型如FastSpeech2与声码器HiFi-GAN的联合训练,以生成自然度与说话人相似度俱佳的合成语音。
实际应用
在实际应用层面,MnTTS2为蒙古语地区的智能技术落地提供了关键支持。基于该数据集训练的合成系统可集成于手机语音助手、车载导航、智能音箱等人机交互场景,满足教育、媒体、公共服务等领域对蒙古语语音输出的需求。例如,在内蒙古自治区的公共信息播报、少数民族语言教育工具开发中,高自然度的合成语音能够提升用户体验与文化包容性。数据集的开放授权进一步降低了技术应用门槛,促进了商业与学术成果的转化。
衍生相关工作
MnTTS2的发布延续并拓展了其前身MnTTS单说话人数据集的影响力,衍生出一系列蒙古语语音合成领域的经典工作。例如,研究者基于此类数据开发了融合迁移学习与情感嵌入的情感可控蒙古语TTS系统,提升了语音的表现力。此外,数据集中多说话人的设计启发了针对蒙古语韵律预测、词干后缀分割等底层问题的深度学习方法优化,如采用双向长短期记忆网络改进短语断句预测。这些工作共同推动了蒙古语语音合成技术向多模态、情感化方向的演进。
以上内容由遇见数据集搜集并总结生成



