KazEmoTTS

github2024-04-02 更新2024-05-31 收录

下载链接：

https://github.com/IS2AI/KazEmoTTS

下载链接

链接失效反馈

官方服务：

资源简介：

An open-source Kazakh Emotional Text-to-Speech Dataset

开源哈萨克语情感文本到语音（Text-to-Speech）数据集

创建时间：

2024-03-07

原始信息汇总

数据集概述

数据集名称

名称: KazEmoTTS

数据集内容

描述: 该数据集提供了一个用于情感文本到语音合成的数据集和模型，主要用于支持论文《KazEmoTTS: A Dataset for Kazakh Emotional Text-to-Speech Synthesis》。

数据集统计

情感分类: 包括中性、愤怒、快乐、悲伤、害怕、惊讶六种情感。
录音数量:
- 中性: 9,385条
- 愤怒: 9,059条
- 快乐: 9,059条
- 悲伤: 8,980条
- 害怕: 9,098条
- 惊讶: 9,179条
录音时长统计:
- Narrator F1: 总计34.23小时
- Narrator M1: 总计26.51小时
- Narrator M2: 总计14.11小时
- 总时长: 74.85小时

数据集使用

预处理: 需要下载KazEmoTTS数据集并执行data_preparation.py进行定制化处理。
训练: 需要指定模型配置文件和检查点目录，使用特定GPU进行训练。
推理: 使用预训练模型进行文本到语音的合成，需要下载相关检查点。

数据集引用

引用方式: 在研究中使用该数据集和模型时，应引用相关论文以示认可。
引用格式: bibtex @misc{abilbekov2024kazemotts, title={KazEmoTTS: A Dataset for Kazakh Emotional Text-to-Speech Synthesis}, author={Adal Abilbekov and Saida Mussakhojayeva and Rustem Yeshpanov and Huseyin Atakan Varol}, year={2024}, eprint={2404.01033}, archivePrefix={arXiv}, primaryClass={eess.AS} }

搜集汇总

数据集介绍

构建方式

KazEmoTTS数据集的构建过程基于哈萨克语的情感文本到语音合成需求，通过三位不同性别和情感表达的叙述者进行录音。数据集涵盖了中性、愤怒、快乐、悲伤、恐惧和惊讶六种情感类别，每种情感均有大量录音样本。录音过程中，叙述者根据特定情感进行文本朗读，确保语音样本的情感表达准确且自然。录音数据经过严格的质量控制，确保音频清晰度和情感一致性，最终形成了包含54,760条录音、总时长约74.85小时的高质量数据集。

特点

KazEmoTTS数据集以其多样性和高质量著称，涵盖了六种情感类别，每种情感均有近万条录音样本，确保了数据集的广泛适用性。数据集包含三位不同性别叙述者的录音，进一步增强了其多样性。录音时长分布均匀，最短录音为0.65秒，最长录音为18.16秒，平均时长在4.5至5.5秒之间，适合用于训练和测试情感语音合成模型。此外，数据集提供了详细的统计信息，包括每种情感的录音数量、时长分布等，为研究者提供了丰富的数据支持。

使用方法

使用KazEmoTTS数据集进行情感语音合成研究时，首先需下载数据集并通过`data_preparation.py`脚本进行预处理，生成适合训练的格式。训练阶段，研究者需配置模型参数并指定GPU设备，使用`train_EMA.py`脚本启动训练过程。推理阶段，可通过`inference_EMA.py`脚本加载预训练模型，生成指定情感的语音样本。推理时需提供包含文本、情感ID和说话者ID的文本文件，并设置相关参数，如时间步长和分类器引导级别。最终生成的语音样本可保存为音频文件，供进一步分析和评估。

背景与挑战

背景概述

KazEmoTTS数据集由IS2AI团队于2024年发布，旨在为哈萨克语情感文本到语音合成（TTS）提供高质量的数据支持。该数据集包含多种情感类别，如中性、愤怒、快乐、悲伤、恐惧和惊讶，涵盖了超过54,760条录音，总时长约74.85小时。数据集由三位不同的叙述者录制，确保了语音的多样性和广泛性。KazEmoTTS的发布填补了哈萨克语情感TTS领域的空白，为语音合成技术在多语言环境中的应用提供了重要资源。该数据集的研究成果已发表在arXiv上，标志着哈萨克语语音合成研究的重要进展。

当前挑战

KazEmoTTS数据集在构建和应用过程中面临多重挑战。首先，情感语音数据的采集和标注需要高度的精确性和一致性，以确保每种情感的表达能够被准确识别和合成。其次，哈萨克语作为一种资源较少的语言，缺乏现成的语音合成模型和工具，这增加了数据预处理和模型训练的复杂性。此外，情感语音合成的自然度和流畅性要求极高，如何在保持语音质量的同时实现情感表达的多样性，是技术实现中的一大难题。最后，数据集的多样性和代表性也需要不断优化，以确保其在不同应用场景中的广泛适用性。

常用场景

经典使用场景

KazEmoTTS数据集在情感语音合成领域具有广泛的应用，尤其是在哈萨克语的情感文本到语音（TTS）合成研究中。该数据集通过提供多种情感类别的语音样本，为研究人员提供了丰富的实验材料，用于训练和评估情感TTS模型。其经典使用场景包括情感语音生成、语音情感识别以及跨语言情感语音合成研究。

衍生相关工作

KazEmoTTS数据集的发布催生了一系列相关研究工作，特别是在情感TTS模型优化和多语言情感语音合成领域。基于该数据集，研究人员提出了多种改进的情感TTS模型，如基于GradTTS和HiFi-GAN的模型，这些模型在情感语音生成的质量和自然度上取得了显著提升。此外，该数据集还促进了跨语言情感语音合成的研究，为多语言情感语音合成技术的发展提供了新的思路。

数据集最近研究