five

Mikhailo/ukrainian-tts-audiobooks-24khz

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Mikhailo/ukrainian-tts-audiobooks-24khz
下载链接
链接失效反馈
官方服务:
资源简介:
乌克兰语音数据集,用于文本到语音(TTS)和自动语音识别(ASR)任务。数据集经过音乐检测过滤、音频处理和转录等步骤处理。包含id、audio、text和lang四个字段,分别表示样本的唯一标识符、音频文件、乌克兰语转录文本和语言代码。数据集分为train和dev两个部分,分别占总数据集的约99%和1%。此外,还提供了一个经过清理和优化的版本。

Ukrainian speech dataset for TTS and ASR tasks. The dataset has undergone processing steps including MusicDetection filtering, audio processing, and transcription. The dataset structure includes four fields: id, audio, text, and lang, representing the unique sample identifier, audio file, Ukrainian transcription text, and language code, respectively. The dataset is divided into train and dev parts, accounting for approximately 99% and 1% of the total dataset, respectively. Additionally, a cleaned and refined version is available.
提供机构:
Mikhailo
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自大规模的乌克兰语有声读物语料库audiobooks-xxl,经过精细的多阶段处理流程构建而成。首先,通过音乐检测过滤技术移除包含背景音乐或噪声的样本,确保语音纯净。随后,利用Sidon音频处理工具将原始采样率从16 kHz提升至24 kHz,并转换为单声道格式,以适配高保真语音合成与识别需求。最后,采用nvidia/canary-1b-v2模型对音频进行自动转录,生成对应的乌克兰语文本标注。整个流程旨在产出高质量、低噪声的语音-文本配对数据,为后续模型训练奠定基础。
特点
该数据集的核心特点在于其高采样率(24 kHz)与单声道WAV格式,兼顾了音频细节保真度与数据存储效率。数据划分上,训练集约占99%,开发集约占1%,为模型提供了充足的训练样本与验证依据。每条数据包含唯一标识符、音频文件、乌克兰语转录文本及语言代码,结构清晰,便于直接用于文本转语音(TTS)与自动语音识别(ASR)任务。此外,原始数据集经过音乐噪声过滤和严格转录校正,显著提升了语音数据的纯净度和文本匹配准确性,尤其适用于多说话人场景下的乌克兰语语音建模。
使用方法
用户可通过HuggingFace的datasets库便捷加载该数据集,只需一行代码即可获取训练与开发分片。数据集中音频字段已预设为24 kHz采样率,可直接输入TTS或ASR模型管道,无需额外重采样处理。文本字段保存了对应的乌克兰语转录内容,便于监督学习中的损失计算。对于需要更高质量数据的应用场景,官方还提供了进一步清洗和精炼的版本,用户可通过链接获取优化后的子集,以适配对噪声容忍度较低的学术研究或商业级语音系统开发。
背景与挑战
背景概述
乌克兰语作为东斯拉夫语支的重要组成部分,其语音技术在近年来随着深度学习的发展逐渐受到关注。ukrainian-tts-audiobooks-24khz数据集由开发者Mikhailo于2023年创建,基于Yehor提供的audiobooks-xxl原始有声书语料库,经精细处理而成。该数据集专注于乌克兰语的文本转语音(TTS)与自动语音识别(ASR)任务,旨在弥补乌克兰语在语音合成与识别领域高质量、开源数据资源的匮乏。通过提供24kHz采样率、单声道WAV格式的音频与对应文本,该数据集为乌克兰语语音研究奠定了坚实的数据基础,对低资源语言的语音技术发展具有重要示范意义。
当前挑战
该数据集所解决的领域问题在于乌克兰语语音数据的稀缺性,尤其是高质量、带精确转写的长音频数据难获取,限制了TTS与ASR模型的性能提升。在构建过程中,首要挑战是从包含背景音乐或噪音的原始有声书中筛选出干净语音,为此采用了MusicDetection过滤算法;其次,音频需从16kHz重采样至24kHz并转为单声道,以符合高质量TTS模型的输入要求;最后,转录文本由nvidia/canary-1b-v2模型自动生成,在低资源语言上可能引入转写误差,因此数据集中约99%的样本用于训练以实现模型鲁棒性,并保留约1%的开发集用于评估。
常用场景
经典使用场景
乌克兰语有声书TTS数据集(24kHz)在语音合成与自动语音识别领域展现出独特的应用价值。该数据集源自大规模有声书语料库,经过背景音乐检测过滤、音频重采样与单声道转换等精细处理流程,并借助NVIDIA的Canary-1B模型生成转录文本。其核心使用场景在于为乌克兰语文本转语音系统提供高质量、低噪声的语音素材,同时也可作为语音识别任务的训练语料,支持研究者构建面向东欧语言资源的语音技术模型。
实际应用
在实际应用中,该数据集支撑着乌克兰语智能语音助手的开发、有声书自动生成、语音导航系统以及无障碍阅读工具的建设。例如,面向乌克兰语用户的虚拟助手可通过该数据集训练的TTS模型实现自然流畅的语音播报;电子教育平台能借助其合成的语音为学习者提供沉浸式听力材料。此外,数据集还可用于训练乌克兰语语音识别系统,服务于会议转录、语音搜索等场景,显著提升了乌克兰语数字服务的可用性与包容性。
衍生相关工作
基于该数据集,研究社区已衍生出一系列经典工作。最显著的成果是经清理与精炼的版本(ukrainian-tts-audiobooks-24khz-clean),该版本进一步优化了语音质量与文本一致性,成为后续研究的标准基准。此外,该数据集被广泛应用于乌克兰语语音合成模型的对比实验,如Tacotron2、FastSpeech等架构的性能评估,并推动了多语言TTS模型中乌克兰语子集的高效训练。其处理流程也为其他低资源语言数据集构建提供了可复现的范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作