KazakhTTS2
收藏arXiv2022-04-20 更新2024-06-21 收录
下载链接:
https://github.com/IS2AI/Kazakh_TTS
下载链接
链接失效反馈官方服务:
资源简介:
KazakhTTS2是由智能系统与人工智能研究所创建的开放源代码哈萨克语文本到语音合成数据集,包含271小时的高质量转录数据,涵盖了新闻、书籍和维基百科文章等多种主题。数据集由五位专业演讲者(三位女性和两位男性)录制,每位演讲者至少有25小时的转录音频。创建过程中,数据集通过手动分割和音频文本对齐,确保了数据的质量和准确性。该数据集主要用于构建高质量的TTS系统,解决哈萨克语等低资源语言的语音合成问题,同时也支持其他突厥语系语言的研究。
KazakhTTS2 is an open-source Kazakh text-to-speech synthesis dataset developed by the Institute of Intelligent Systems and Artificial Intelligence. It contains 271 hours of high-quality transcribed data covering a wide range of topics including news, books, and Wikipedia articles. The dataset was recorded by five professional speakers: three females and two males, with each speaker contributing at least 25 hours of transcribed audio. During its development, manual segmentation and audio-text alignment were carried out to ensure the quality and accuracy of the dataset. This dataset is primarily intended for building high-quality TTS systems to address the speech synthesis challenges faced by low-resource languages such as Kazakh, and also supports research on other Turkic languages.
提供机构:
智能系统与人工智能研究所
创建时间:
2022-01-15
搜集汇总
数据集介绍

构建方式
哈萨克语作为一种黏着语,属于突厥语系,其语音合成研究长期受限于开源数据匮乏。KazakhTTS2数据集的构建始于语料采集,研究团队从四个本地新闻网站、一本公有领域书籍以及维基百科中提取了超过2500篇新闻、159篇百科文章和一部文学作品。录音环节邀请了五位专业朗读者,包括三位女性和两位男性,其中三位为新聘人员。每位朗读者在居家环境中使用专业设备录制,并遵循统一的朗读规范。录制完成后,五名母语转录员使用Praat工具对音频进行人工切分至句子级别,并与文本对齐,同时剔除含误读或背景噪音的片段。为保障对齐精度,团队利用内部自动语音识别系统对分割结果进行校验,对字符错误率较高的片段由语言学家复核,最终形成了包含约13.6万个语句、总时长271小时的语料库。
特点
KazakhTTS2数据集在规模、多样性与质量上均实现了显著提升。相较于前版,数据总量从93小时扩展至271小时,朗读者从两人增至五人,覆盖了不同性别与年龄层,每位朗读者至少贡献25小时高质量音频。语料来源从单一新闻拓展至新闻、书籍与维基百科三大领域,极大丰富了主题覆盖面,尤其是引入了科学、技术、历史等专业内容。音频统一采样至22.05 kHz,以16位WAV格式存储,文本采用西里尔字母编码,文件命名规则清晰,便于检索。此外,针对男性朗读者M1,其数据按来源分设子文件夹,支持更细粒度的模型训练。数据集的开放性亦是一大亮点,所有资源、代码及预训练模型均公开发布于GitHub,允许学术与商业使用。
使用方法
KazakhTTS2数据集专为文本到语音合成系统设计,使用方法灵活且标准化。用户可直接基于每位朗读者独立的音频与文本文件夹训练单说话人模型,亦可利用M1的多来源数据(新闻、书籍、维基百科)进行跨领域迁移学习或微调。推荐采用Tacotron 2等端到端架构,以42个西里尔字母及5个标点符号作为输入字符序列,输出80维对数梅尔滤波器组特征,再结合WaveGAN声码器生成波形。训练时建议按说话人分别建模,使用Adam优化器,初始学习率设为10⁻³,并在200个周期内逐步收敛。评估方面,数据集提供了主观平均意见得分基准,用户可参照论文中的Telegram机器人评价流程,在安静环境下通过耳机对合成语音进行五级评分,以验证模型性能。
背景与挑战
背景概述
哈萨克语作为突厥语系中一种黏着性语言,在语音合成领域长期面临数据匮乏的困境,制约了高质量文本转语音(TTS)系统的研发。为应对这一挑战,纳扎尔巴耶夫大学智能系统与人工智能研究所的Saida Mussakhojayeva、Yerbolat Khassanov及Huseyin Atakan Varol于2022年发布了KazakhTTS2语料库,这是对先前KazakhTTS语料库的显著扩展。该语料库将音频时长从93小时提升至271小时,说话人数量从两人增至五人(三女两男),并引入书籍与维基百科文章以丰富主题覆盖。KazakhTTS2的发布为低资源突厥语系语言的语音研究提供了关键资源,其开源特性推动了学术界与工业界在哈萨克语TTS领域的探索,下载量在短时间内突破200次,彰显了该语料库对语言技术发展的深远影响。
当前挑战
KazakhTTS2语料库所面临的挑战首先体现在领域问题层面:哈萨克语是一种黏着性语言,词汇量庞大且词形变化丰富,加之频繁的语码转换(尤其是与俄语的混合使用)以及大量俄语借词保留源语言的正字法与音系特性,导致TTS系统在处理重音位置、发音规则一致性时极易出错,例如俄语单词的重音可落在任意音节,而哈萨克语通常固定于末音节。其次,在构建过程中,新冠疫情迫使说话人在家庭临时录音室录制,虽经严格指导,但环境噪声与设备差异仍影响音频一致性;此外,手动分割与对齐136,196个语句段耗时耗力,需依赖母语转写者与内部语音识别系统双重校验,以剔除误发音和背景噪音片段,而维基百科数据中大量罕见科技术语进一步加剧了模型合成质量的不稳定性,主观评测显示其平均意见得分仅为3.6,低于其他来源。
常用场景
经典使用场景
在低资源语言语音合成领域,KazakhTTS2数据集被广泛用于构建端到端文本转语音系统。该数据集涵盖了五位专业朗读者(三女两男)共计271小时的高质量音频,语料来源包括新闻、书籍和维基百科,为哈萨克语这种黏着语系的土耳其语族语言提供了丰富的声学与文本对齐资源。研究者通常利用该数据集训练基于Tacotron 2架构的声学模型,并结合WaveGAN声码器生成自然流畅的语音,从而验证多说话人、多主题场景下TTS系统的鲁棒性与泛化能力。
实际应用
在实际应用中,KazakhTTS2支撑了多种语音交互场景的落地。基于该数据集训练的TTS模型可用于开发哈萨克语数字助手,例如智能家居中的语音控制功能,或为视障人士提供有声读物和网页朗读服务。其多说话人特性使得系统能够适配不同用户偏好,而新闻、书籍与百科内容的覆盖则拓展了在教育、信息无障碍和公共服务领域的应用,例如自动播报天气、新闻摘要或辅助语言学习工具。
衍生相关工作
KazakhTTS2的发布催生了一系列衍生研究:一方面,基于该数据集的工作探索了针对黏着语特性的优化策略,例如处理词内代码切换和外来词发音的挑战;另一方面,研究者利用其多说话人数据开展跨语言迁移学习,将哈萨克语TTS技术推广至乌兹别克语等近亲语言。此外,该数据集还常被用于结合自监督方法(如wav2vec 2.0)提升合成质量,或作为基准评估新型神经架构(如FastSpeech、VITS)在低资源场景下的表现,推动了开源语音社区在土耳其语族语言上的持续进步。
以上内容由遇见数据集搜集并总结生成



