Mikhailo/ukrainian-tts-audiobooks-24khz

Name: Mikhailo/ukrainian-tts-audiobooks-24khz
Creator: Mikhailo
Published: 2026-05-02 13:44:23
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Mikhailo/ukrainian-tts-audiobooks-24khz

下载链接

链接失效反馈

官方服务：

资源简介：

乌克兰语音数据集，用于文本到语音（TTS）和自动语音识别（ASR）任务。数据集经过音乐检测过滤、音频处理和转录等步骤处理。包含id、audio、text和lang四个字段，分别表示样本的唯一标识符、音频文件、乌克兰语转录文本和语言代码。数据集分为train和dev两个部分，分别占总数据集的约99%和1%。此外，还提供了一个经过清理和优化的版本。

Ukrainian speech dataset for TTS and ASR tasks. The dataset has undergone processing steps including MusicDetection filtering, audio processing, and transcription. The dataset structure includes four fields: id, audio, text, and lang, representing the unique sample identifier, audio file, Ukrainian transcription text, and language code, respectively. The dataset is divided into train and dev parts, accounting for approximately 99% and 1% of the total dataset, respectively. Additionally, a cleaned and refined version is available.

提供机构：

Mikhailo

搜集汇总

数据集介绍

构建方式

该数据集源自大规模的乌克兰语有声读物语料库audiobooks-xxl，经过精细的多阶段处理流程构建而成。首先，通过音乐检测过滤技术移除包含背景音乐或噪声的样本，确保语音纯净。随后，利用Sidon音频处理工具将原始采样率从16 kHz提升至24 kHz，并转换为单声道格式，以适配高保真语音合成与识别需求。最后，采用nvidia/canary-1b-v2模型对音频进行自动转录，生成对应的乌克兰语文本标注。整个流程旨在产出高质量、低噪声的语音-文本配对数据，为后续模型训练奠定基础。

特点

该数据集的核心特点在于其高采样率（24 kHz）与单声道WAV格式，兼顾了音频细节保真度与数据存储效率。数据划分上，训练集约占99%，开发集约占1%，为模型提供了充足的训练样本与验证依据。每条数据包含唯一标识符、音频文件、乌克兰语转录文本及语言代码，结构清晰，便于直接用于文本转语音（TTS）与自动语音识别（ASR）任务。此外，原始数据集经过音乐噪声过滤和严格转录校正，显著提升了语音数据的纯净度和文本匹配准确性，尤其适用于多说话人场景下的乌克兰语语音建模。

使用方法

用户可通过HuggingFace的datasets库便捷加载该数据集，只需一行代码即可获取训练与开发分片。数据集中音频字段已预设为24 kHz采样率，可直接输入TTS或ASR模型管道，无需额外重采样处理。文本字段保存了对应的乌克兰语转录内容，便于监督学习中的损失计算。对于需要更高质量数据的应用场景，官方还提供了进一步清洗和精炼的版本，用户可通过链接获取优化后的子集，以适配对噪声容忍度较低的学术研究或商业级语音系统开发。

背景与挑战

背景概述

乌克兰语作为东斯拉夫语支的重要组成部分，其语音技术在近年来随着深度学习的发展逐渐受到关注。ukrainian-tts-audiobooks-24khz数据集由开发者Mikhailo于2023年创建，基于Yehor提供的audiobooks-xxl原始有声书语料库，经精细处理而成。该数据集专注于乌克兰语的文本转语音（TTS）与自动语音识别（ASR）任务，旨在弥补乌克兰语在语音合成与识别领域高质量、开源数据资源的匮乏。通过提供24kHz采样率、单声道WAV格式的音频与对应文本，该数据集为乌克兰语语音研究奠定了坚实的数据基础，对低资源语言的语音技术发展具有重要示范意义。

当前挑战

该数据集所解决的领域问题在于乌克兰语语音数据的稀缺性，尤其是高质量、带精确转写的长音频数据难获取，限制了TTS与ASR模型的性能提升。在构建过程中，首要挑战是从包含背景音乐或噪音的原始有声书中筛选出干净语音，为此采用了MusicDetection过滤算法；其次，音频需从16kHz重采样至24kHz并转为单声道，以符合高质量TTS模型的输入要求；最后，转录文本由nvidia/canary-1b-v2模型自动生成，在低资源语言上可能引入转写误差，因此数据集中约99%的样本用于训练以实现模型鲁棒性，并保留约1%的开发集用于评估。

常用场景

经典使用场景

乌克兰语有声书TTS数据集（24kHz）在语音合成与自动语音识别领域展现出独特的应用价值。该数据集源自大规模有声书语料库，经过背景音乐检测过滤、音频重采样与单声道转换等精细处理流程，并借助NVIDIA的Canary-1B模型生成转录文本。其核心使用场景在于为乌克兰语文本转语音系统提供高质量、低噪声的语音素材，同时也可作为语音识别任务的训练语料，支持研究者构建面向东欧语言资源的语音技术模型。

实际应用

在实际应用中，该数据集支撑着乌克兰语智能语音助手的开发、有声书自动生成、语音导航系统以及无障碍阅读工具的建设。例如，面向乌克兰语用户的虚拟助手可通过该数据集训练的TTS模型实现自然流畅的语音播报；电子教育平台能借助其合成的语音为学习者提供沉浸式听力材料。此外，数据集还可用于训练乌克兰语语音识别系统，服务于会议转录、语音搜索等场景，显著提升了乌克兰语数字服务的可用性与包容性。

衍生相关工作

基于该数据集，研究社区已衍生出一系列经典工作。最显著的成果是经清理与精炼的版本（ukrainian-tts-audiobooks-24khz-clean），该版本进一步优化了语音质量与文本一致性，成为后续研究的标准基准。此外，该数据集被广泛应用于乌克兰语语音合成模型的对比实验，如Tacotron2、FastSpeech等架构的性能评估，并推动了多语言TTS模型中乌克兰语子集的高效训练。其处理流程也为其他低资源语言数据集构建提供了可复现的范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集