five

KazEmoTTS

收藏
github2024-04-02 更新2024-05-31 收录
下载链接:
https://github.com/IS2AI/KazEmoTTS
下载链接
链接失效反馈
官方服务:
资源简介:
An open-source Kazakh Emotional Text-to-Speech Dataset

开源哈萨克语情感文本到语音(Text-to-Speech)数据集
创建时间:
2024-03-07
原始信息汇总

数据集概述

数据集名称

  • 名称: KazEmoTTS

数据集内容

  • 描述: 该数据集提供了一个用于情感文本到语音合成的数据集和模型,主要用于支持论文《KazEmoTTS: A Dataset for Kazakh Emotional Text-to-Speech Synthesis》。

数据集统计

  • 情感分类: 包括中性、愤怒、快乐、悲伤、害怕、惊讶六种情感。
  • 录音数量:
    • 中性: 9,385条
    • 愤怒: 9,059条
    • 快乐: 9,059条
    • 悲伤: 8,980条
    • 害怕: 9,098条
    • 惊讶: 9,179条
  • 录音时长统计:
    • Narrator F1: 总计34.23小时
    • Narrator M1: 总计26.51小时
    • Narrator M2: 总计14.11小时
    • 总时长: 74.85小时

数据集使用

  • 预处理: 需要下载KazEmoTTS数据集并执行data_preparation.py进行定制化处理。
  • 训练: 需要指定模型配置文件和检查点目录,使用特定GPU进行训练。
  • 推理: 使用预训练模型进行文本到语音的合成,需要下载相关检查点。

数据集引用

  • 引用方式: 在研究中使用该数据集和模型时,应引用相关论文以示认可。
  • 引用格式: bibtex @misc{abilbekov2024kazemotts, title={KazEmoTTS: A Dataset for Kazakh Emotional Text-to-Speech Synthesis}, author={Adal Abilbekov and Saida Mussakhojayeva and Rustem Yeshpanov and Huseyin Atakan Varol}, year={2024}, eprint={2404.01033}, archivePrefix={arXiv}, primaryClass={eess.AS} }
搜集汇总
数据集介绍
main_image_url
构建方式
KazEmoTTS数据集的构建过程基于哈萨克语的情感文本到语音合成需求,通过三位不同性别和情感表达的叙述者进行录音。数据集涵盖了中性、愤怒、快乐、悲伤、恐惧和惊讶六种情感类别,每种情感均有大量录音样本。录音过程中,叙述者根据特定情感进行文本朗读,确保语音样本的情感表达准确且自然。录音数据经过严格的质量控制,确保音频清晰度和情感一致性,最终形成了包含54,760条录音、总时长约74.85小时的高质量数据集。
特点
KazEmoTTS数据集以其多样性和高质量著称,涵盖了六种情感类别,每种情感均有近万条录音样本,确保了数据集的广泛适用性。数据集包含三位不同性别叙述者的录音,进一步增强了其多样性。录音时长分布均匀,最短录音为0.65秒,最长录音为18.16秒,平均时长在4.5至5.5秒之间,适合用于训练和测试情感语音合成模型。此外,数据集提供了详细的统计信息,包括每种情感的录音数量、时长分布等,为研究者提供了丰富的数据支持。
使用方法
使用KazEmoTTS数据集进行情感语音合成研究时,首先需下载数据集并通过`data_preparation.py`脚本进行预处理,生成适合训练的格式。训练阶段,研究者需配置模型参数并指定GPU设备,使用`train_EMA.py`脚本启动训练过程。推理阶段,可通过`inference_EMA.py`脚本加载预训练模型,生成指定情感的语音样本。推理时需提供包含文本、情感ID和说话者ID的文本文件,并设置相关参数,如时间步长和分类器引导级别。最终生成的语音样本可保存为音频文件,供进一步分析和评估。
背景与挑战
背景概述
KazEmoTTS数据集由IS2AI团队于2024年发布,旨在为哈萨克语情感文本到语音合成(TTS)提供高质量的数据支持。该数据集包含多种情感类别,如中性、愤怒、快乐、悲伤、恐惧和惊讶,涵盖了超过54,760条录音,总时长约74.85小时。数据集由三位不同的叙述者录制,确保了语音的多样性和广泛性。KazEmoTTS的发布填补了哈萨克语情感TTS领域的空白,为语音合成技术在多语言环境中的应用提供了重要资源。该数据集的研究成果已发表在arXiv上,标志着哈萨克语语音合成研究的重要进展。
当前挑战
KazEmoTTS数据集在构建和应用过程中面临多重挑战。首先,情感语音数据的采集和标注需要高度的精确性和一致性,以确保每种情感的表达能够被准确识别和合成。其次,哈萨克语作为一种资源较少的语言,缺乏现成的语音合成模型和工具,这增加了数据预处理和模型训练的复杂性。此外,情感语音合成的自然度和流畅性要求极高,如何在保持语音质量的同时实现情感表达的多样性,是技术实现中的一大难题。最后,数据集的多样性和代表性也需要不断优化,以确保其在不同应用场景中的广泛适用性。
常用场景
经典使用场景
KazEmoTTS数据集在情感语音合成领域具有广泛的应用,尤其是在哈萨克语的情感文本到语音(TTS)合成研究中。该数据集通过提供多种情感类别的语音样本,为研究人员提供了丰富的实验材料,用于训练和评估情感TTS模型。其经典使用场景包括情感语音生成、语音情感识别以及跨语言情感语音合成研究。
衍生相关工作
KazEmoTTS数据集的发布催生了一系列相关研究工作,特别是在情感TTS模型优化和多语言情感语音合成领域。基于该数据集,研究人员提出了多种改进的情感TTS模型,如基于GradTTS和HiFi-GAN的模型,这些模型在情感语音生成的质量和自然度上取得了显著提升。此外,该数据集还促进了跨语言情感语音合成的研究,为多语言情感语音合成技术的发展提供了新的思路。
数据集最近研究
最新研究方向
在语音合成领域,情感表达的研究正逐渐成为热点,KazEmoTTS数据集的推出为哈萨克语情感文本到语音合成提供了重要的资源支持。该数据集涵盖了多种情感类别,如中性、愤怒、快乐、悲伤、恐惧和惊讶,并通过不同叙述者的录音数据,为研究者提供了丰富的实验素材。近年来,随着深度学习技术的进步,基于情感的多语言语音合成模型得到了广泛关注,KazEmoTTS的出现填补了哈萨克语在这一领域的空白。研究者们正致力于利用该数据集开发更加自然、情感丰富的语音合成系统,以提升人机交互的体验。此外,该数据集还为跨语言情感语音合成的研究提供了新的可能性,推动了语音合成技术的全球化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作