five

uk_UA-ASMR

收藏
Hugging Face2026-04-01 更新2026-04-02 收录
下载链接:
https://huggingface.co/datasets/kontextox/uk_UA-ASMR
下载链接
链接失效反馈
官方服务:
资源简介:
乌克兰ASMR TTS数据集是一个专为训练单说话人ASMR风格语音模型设计的文本转语音数据集,适用于乌克兰语。数据集包含7,318个音频片段,格式为16位WAV,采样率为22050 Hz,单声道。数据集结构包括元数据文件(metadata.csv)、音频文件目录(audio/)以及用于训练的检查点文件(checkpoints/)。该数据集使用CC0许可证,允许自由使用。数据集适用于基于Piper框架的乌克兰语文本转语音模型训练,支持字符级音素映射,无需依赖espeak-ng音素化。数据集还提供了详细的训练和导出指南,包括安装依赖、训练命令和模型导出步骤。
创建时间:
2026-04-01
原始信息汇总

Ukrainian ASMR TTS 数据集概述

基本信息

  • 数据集名称: Ukrainian ASMR TTS Dataset
  • 语言: 乌克兰语 (uk_UA)
  • 许可协议: CC0-1.0
  • 标签: tts, text-to-speech, ukrainian, asmr, piper
  • 配置名称: default

数据集详情

属性
语言 乌克兰语 (uk_UA)
说话人数量 1
数据段数量 7,318
音频格式 16-bit WAV, 22050 Hz, Mono
许可证 CC0

数据集结构

数据集包含以下文件与目录:

uk_UA-ASMR/ ├── README.md ├── metadata.csv # 元数据文件 ├── phonemes.json # 自动提取的乌克兰语音素映射文件 ├── audio/ # 音频文件目录 (22050 Hz, mono, 16-bit) │ ├── utt_0001.wav │ ├── utt_0002.wav │ └── ... └── checkpoints/ # 检查点目录 ├── config.json └── epoch=2090-step=1166778.ckpt

元数据文件 (metadata.csv) 格式为:音频文件|文本

音频规格

  • 采样率: 22050 Hz
  • 声道: 单声道 (Mono)
  • 位深度: 16-bit
  • 格式: WAV

音素类型

该数据集使用 phoneme_type: "text",即直接使用原始乌克兰语字符,而不通过 espeak-ng 进行音素化。模型使用基于乌克兰语西里尔字母的字符音素映射。

有效字符包括:

а б в г ґ д е є ж з и і ї й к л м н о п р с т у ф х ц ч ш щ ь ю я

以及标点符号:space ! , - . : ; ? _ ^ $ — 和变音符号。

用途

该数据集用于训练使用 Piper 框架的单说话人 ASMR 风格语音文本转语音模型。

引用

若使用本数据集,请引用: bibtex @misc{uk_ua_asmr, title={Ukrainian ASMR TTS Dataset}, author={Kontextox}, year={2026}, url={https://huggingface.co/datasets/kontextox/uk_UA-ASMR} }

致谢

搜集汇总
数据集介绍
main_image_url
构建方式
在语音合成领域,高质量的语音数据集对于训练特定风格的模型至关重要。乌克兰语ASMR语音数据集的构建过程体现了对音频质量和文本对齐的严谨追求。该数据集收录了单一说话者录制的7318个语音片段,每个片段均以16位WAV格式保存,采样率为22050赫兹,并采用单声道录制。数据集的元数据通过metadata.csv文件组织,其中清晰标注了音频文件路径与对应文本的映射关系,确保了数据的一致性和可追溯性。
特点
该数据集的核心特点在于其专注于乌克兰语ASMR风格的语音合成,为特定语音风格的建模提供了专门资源。数据集采用字符级音素映射策略,直接使用乌克兰语西里尔字母作为音素单元,避免了复杂的音素转换过程,这简化了模型训练流程并保持了语言的原始韵律特征。音频文件均经过统一标准化处理,具备一致的采样率、位深度和声道配置,为模型训练提供了稳定可靠的输入数据基础。
使用方法
利用该数据集进行模型训练需要遵循系统化的技术流程。首先需配置Piper训练环境并应用必要的代码修正以确保自定义音素映射功能正常。训练过程通过指定语音名称、数据路径、音素文件及预训练检查点等参数来启动,支持从最新检查点继续训练以提升效率。模型训练完成后可导出为ONNX格式,便于跨平台部署,最终通过Piper命令行工具实现文本到ASMR风格语音的合成功能。
背景与挑战
背景概述
在语音合成技术不断演进的背景下,针对特定语言风格与情感表达的语音数据集构建成为研究热点。乌克兰语ASMR文本转语音数据集(uk_UA-ASMR)由Kontextox于2026年创建,旨在为乌克兰语单说话人ASMR风格语音模型的训练提供高质量资源。该数据集依托Piper训练框架,包含7318个音频片段,采用16位WAV格式、22050Hz采样率的单声道音频,并以CC0许可证公开。其核心研究问题聚焦于如何生成具有ASMR特质的高自然度乌克兰语语音,从而推动个性化语音合成技术在娱乐、医疗放松等领域的应用,并为低资源语言的语音模型发展提供重要数据支撑。
当前挑战
该数据集致力于解决乌克兰语ASMR风格语音合成这一特定领域问题,其挑战在于如何精准捕捉并复现ASMR所特有的轻柔、耳语般音质与舒缓韵律,这对模型的声学建模与韵律控制提出了极高要求。在构建过程中,面临的主要挑战包括:确保大规模乌克兰语语音数据在ASMR风格上的一致性录制与标注;处理乌克兰语特有的音素与字符映射关系,需适配字符级音素映射而非依赖传统音素化工具;以及在有限计算资源下,基于预训练检查点进行高效微调,同时保持语音的自然度与风格保真度。
常用场景
经典使用场景
在语音合成技术领域,高质量单说话人数据集的构建是模型训练的基础。uk_UA-ASMR数据集专为训练乌克兰语ASMR风格语音合成模型而设计,其经典使用场景聚焦于基于Piper框架的单说话人语音合成模型训练。该数据集通过提供超过七千条高质量音频片段及其对应文本,为研究者构建具有特定音色和风格的乌克兰语语音合成系统提供了标准化训练资源。模型训练过程中,数据集支持从预训练检查点进行微调,有效利用迁移学习策略提升模型性能。
解决学术问题
该数据集主要解决了乌克兰语语音合成研究中高质量训练数据稀缺的学术难题。在低资源语言语音技术领域,缺乏大规模标注语音数据长期制约着模型性能的提升。uk_UA-ASMR通过提供专业录制的ASMR风格语音数据,为研究乌克兰语语音合成中的音色保持、韵律控制和风格迁移等问题提供了实验基础。数据集采用CC0许可协议,极大降低了学术研究的数据获取门槛,促进了乌克兰语语音技术领域的开放协作与知识共享。
衍生相关工作
该数据集衍生的经典工作主要围绕乌克兰语语音合成技术的优化与扩展展开。研究者基于该数据集开发了多种语音风格转换模型,实现了从标准发音到ASMR风格的音色迁移。在模型架构方面,相关工作探索了不同神经网络结构在乌克兰语语音合成中的适应性,特别是针对字符级音素表示的处理机制。跨语言语音合成研究则利用该数据集进行乌克兰语与其他斯拉夫语言的语音特征对比分析,为多语言语音技术开发提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作