KazEmoTTS

Hugging Face2025-01-24 更新2025-01-25 收录

下载链接：

https://huggingface.co/datasets/issai/KazEmoTTS

下载链接

链接失效反馈

官方服务：

资源简介：

KazEmoTTS数据集是一个用于哈萨克语情感文本到语音（TTS）的新资源。它包含54,760个音频-文本对，总计74.85小时的语音数据。数据由三位叙述者（一位女性，两位男性）录制，表达了六种情感：中性、愤怒、快乐、悲伤、害怕和惊讶。基于此数据集训练的TTS模型在客观和主观评估中表现出可接受的合成质量。数据集、训练模型和代码都是公开的，以鼓励哈萨克语TTS的进一步研究和开发。

The KazEmoTTS dataset is a novel resource for Kazakh emotional text-to-speech (TTS). It comprises 54,760 audio-text pairs, with a total of 74.85 hours of speech data. The data was recorded by three narrators (one female and two males) expressing six emotions: neutral, anger, happiness, sadness, fear, and surprise. TTS models trained on this dataset have demonstrated acceptable synthesis quality in both objective and subjective evaluations. The dataset, the trained models, and the accompanying code are publicly available to foster further research and development of Kazakh TTS.

创建时间：

2025-01-17

原始信息汇总

KazEmoTTS: 哈萨克语情感文本到语音数据集

数据集概述

KazEmoTTS 是一个用于哈萨克语情感文本到语音（TTS）的新资源。该数据集包含 54,760 个音频-文本对，总计 74.85 小时的语音数据。数据由三位讲述者（一位女性，两位男性）录制，表达了六种情感：中性、愤怒、快乐、悲伤、害怕和惊讶。基于该数据集训练的 TTS 模型在客观和主观评估中表现良好，平均字符距离（MCD）得分在 6.02 到 7.67 之间，平均意见得分（MOS）在 3.51 到 3.57 之间。

数据集统计

统计项	值
样本数量	54,760
总时长	74.85 小时
女性讲述者时长	34.23 小时
男性讲述者时长	40.62 小时
情感数量	6
情感类型	中性、愤怒、快乐、悲伤、害怕、惊讶
MCD 得分	6.02 - 7.67
MOS 得分	3.51 - 3.57

语言

哈萨克语

许可证

许可证信息未提供。

引用

引用信息未提供。

备注

提供的 GitHub 仓库链接返回 404 错误，无法包含直接链接和 README 中的进一步详细信息。一旦仓库可访问，应更新此信息。

搜集汇总

数据集介绍

构建方式

KazEmoTTS数据集的构建过程体现了对哈萨克语情感语音合成的深入研究。该数据集通过三位讲述者（一位女性和两位男性）的录音，涵盖了六种情感状态：中性、愤怒、快乐、悲伤、害怕和惊讶。总计54,760个音频-文本对，录音时长达到74.85小时，确保了数据的多样性和广泛性。录音过程中，讲述者通过情感表达训练，确保了情感的真实性和一致性，为后续的语音合成研究提供了坚实的基础。

使用方法

KazEmoTTS数据集的使用方法主要围绕哈萨克语情感语音合成的研究展开。研究人员可以通过该数据集训练和评估TTS模型，探索不同情感状态下的语音合成效果。数据集提供了音频-文本对，便于模型训练和测试。此外，数据集还包含了预训练的TTS模型和代码，研究人员可以直接使用或在此基础上进行改进。通过该数据集，研究人员能够深入分析哈萨克语的情感表达特征，推动该语言在语音合成领域的发展。

背景与挑战

背景概述

KazEmoTTS数据集是哈萨克语情感文本到语音（TTS）研究领域的一项重要资源，由三位讲述者（一位女性，两位男性）录制，涵盖了六种情感状态：中性、愤怒、快乐、悲伤、恐惧和惊讶。该数据集包含54,760个音频-文本对，总时长达74.85小时，旨在推动哈萨克语TTS技术的发展。通过该数据集训练的TTS模型在客观和主观评估中均表现出可接受的合成质量，MCD得分介于6.02至7.67之间，MOS得分介于3.51至3.57之间。KazEmoTTS的发布为哈萨克语语音合成领域的研究提供了宝贵的数据支持，填补了该语言在情感TTS研究中的空白。

当前挑战

KazEmoTTS数据集在构建和应用过程中面临多重挑战。首先，哈萨克语作为一种资源较少的语言，缺乏高质量的情感语音数据，这使得数据收集和标注过程尤为复杂。其次，情感表达的多样性和细微差异对语音合成的自然度和准确性提出了更高要求，如何在有限的语料库中捕捉并复现这些情感特征是一个技术难点。此外，数据集的构建还涉及多讲述者的协调与一致性控制，以确保不同情感状态下的语音质量稳定。这些挑战不仅体现在数据集的构建过程中，也直接影响基于该数据集训练的TTS模型在实际应用中的表现。

常用场景

经典使用场景

KazEmoTTS数据集在情感文本到语音（TTS）领域具有广泛的应用，特别是在哈萨克语的情感语音合成研究中。该数据集通过包含六种不同情感的音频-文本对，为研究人员提供了一个丰富的资源，用于训练和评估情感TTS模型。其经典使用场景包括情感语音合成的模型训练、情感识别的辅助研究，以及多语言情感语音合成的跨语言比较研究。

解决学术问题

KazEmoTTS数据集解决了哈萨克语情感语音合成研究中数据稀缺的问题。通过提供高质量的音频-文本对，该数据集使得研究人员能够更准确地训练和评估情感TTS模型，从而推动了哈萨克语语音合成技术的发展。此外，该数据集还为情感识别和多语言语音合成的研究提供了宝贵的数据支持，促进了相关领域的学术进展。

实际应用

在实际应用中，KazEmoTTS数据集可以用于开发哈萨克语的情感语音助手、语音导航系统以及情感交互式教育工具。这些应用不仅能够提升用户体验，还能在医疗、教育等领域发挥重要作用。例如，情感语音助手可以帮助自闭症患者更好地理解和表达情感，而情感交互式教育工具则能够提供更加个性化和情感丰富的学习体验。

数据集最近研究