five

kinyarwanda-radio-tts

收藏
Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/vysakh25/kinyarwanda-radio-tts
下载链接
链接失效反馈
官方服务:
资源简介:
Kinyarwanda Radio TTS 数据集是一个基于卢旺达广播电台(RBA)广播数据的语音合成(TTS)训练数据集,采用SNAC音频编码。数据集包含19,145个音频片段(其中6个因长度或空标记被跳过),主要播音员为Ismael Mwanafunzi(约占80%,27.6小时)。数据质量指标包括STOI 0.987、PESQ 3.11和SI-SDR 22.66。数据集特征包括:clip_id(片段ID)、音频数据(二进制和路径)、多语言文本(英语、法语等)、说话者ID和性别、说话者片段计数、持续时间(秒)、音频质量评分(STOI、语音纯净度)、来源ID、SNAC音频标记(7标记交错)和标记计数。数据集总大小为4.72GB,包含18,794个训练样本。
创建时间:
2026-02-28
原始信息汇总

Kinyarwanda Radio TTS (SNAC-encoded) 数据集概述

数据集基本信息

  • 数据集名称:Kinyarwanda Radio TTS (SNAC-encoded)
  • 数据集用途:用于Orpheus TTS训练的卢旺达语广播数据,包含SNAC音频令牌。
  • 数据来源:Radio Rwanda (RBA),源自vysakh25/kinyarwanda-radio-tts-raw。
  • 数据总量:训练集包含18,794个样本,总大小约为4.72 GB。
  • 下载大小:4.73 GB。
  • 数据集大小:4.72 GB。

数据内容与结构

  • 数据格式:包含一个训练集分割(train)。
  • 主要特征字段
    • clip_id:片段标识符(字符串)。
    • audio:音频数据(包含二进制字节和路径信息)。
    • text:文本内容(字符串)。
    • text_en:英文文本(字符串)。
    • text_fr:法文文本(字符串)。
    • speaker_id:说话者标识符(字符串)。
    • speaker_gender:说话者性别(字符串)。
    • speaker_clip_count:说话者片段数量(整型)。
    • duration_sec:音频时长(秒,浮点型)。
    • stoi_score:STOI质量评分(浮点型)。
    • speech_purity:语音纯度评分(浮点型)。
    • source_id:来源标识符(字符串)。
    • audio_tokens:SNAC音频令牌列表(整型列表)。
    • token_count:令牌数量(长整型)。
    • duration_snac_s:SNAC编码时长(秒,双精度浮点型)。

数据质量与处理

  • 原始片段数量:19,145个(其中6个因长度或空令牌问题被跳过)。
  • 主要说话者:Ismael Mwanafunzi(约占80%,总时长27.6小时)。
  • 质量指标
    • STOI评分:0.987
    • PESQ评分:3.11
    • SI-SDR评分:22.66
  • SNAC编解码器:使用hubertsiuzdak/snac_24khz(7令牌交错编码)。
搜集汇总
数据集介绍
构建方式
在语音合成技术日益精进的背景下,Kinyarwanda Radio TTS数据集源自卢旺达广播电台的公开广播录音,经过系统化处理构建而成。原始音频数据通过预处理流程,剔除了长度异常或内容空白的片段,确保了数据的基本完整性。随后,利用先进的SNAC音频编解码技术对音频进行编码,生成紧凑的令牌序列,同时为每条音频样本标注了对应的基尼亚卢旺达语文本及其英语、法语翻译,并整合了说话人身份、性别及多项声学质量指标,形成结构化多模态语料库。
特点
该数据集的核心特征在于其高质量与多语言标注。音频样本具有卓越的声学品质,平均STOI分数高达0.987,清晰度与保真度表现优异。数据集中包含近两万条语音样本,虽由单一主导说话人贡献了约80%的时长,但仍保留了其他说话人的语音多样性。尤为突出的是,每条音频均配备了基尼亚卢旺达语原文及英法双语译文,这为跨语言语音研究提供了独特资源。数据集还预计算了语音纯净度、信噪比等深度特征,并附有SNAC编码的音频令牌,极大便利了端到端语音合成模型的训练与评估。
使用方法
该数据集主要服务于文本到语音合成模型的开发与优化,特别是针对基尼亚卢旺达语的低资源语音合成任务。研究人员可直接加载预处理的SNAC音频令牌与对应文本,用于训练如Orpheus之类的神经TTS模型,跳过复杂的特征提取步骤。其多语言文本标注支持双语或跨语言语音合成的研究探索。同时,丰富的话者元数据与客观音质指标为说话人自适应、语音增强及合成语音质量评估等子任务提供了坚实基础。数据集以标准格式组织,可通过常见机器学习框架便捷访问与集成至训练流水线中。
背景与挑战
背景概述
在低资源语言语音合成领域,数据稀缺性长期制约着技术发展与应用普及。Kinyarwanda Radio TTS数据集由研究团队基于卢旺达广播电台的公开广播音频构建,旨在为基尼亚卢旺达语提供高质量的文本转语音训练资源。该数据集通过先进的SNAC音频编码技术对原始音频进行压缩表示,不仅显著提升了存储与处理效率,更通过多语言文本标注(包括英语与法语译文)增强了跨语言研究的可行性。其核心研究问题聚焦于如何利用有限规模的广播数据,构建能够捕捉基尼亚卢旺达语丰富韵律特征与发音特性的语音合成模型,从而推动该语言在数字环境中的技术赋能与文化传承。
当前挑战
该数据集致力于解决低资源语言语音合成中训练数据匮乏的核心挑战,具体体现在基尼亚卢旺达语的高质量、大规模语音-文本对齐语料难以获取。构建过程中的主要困难包括:广播音频中存在显著的说话人失衡现象,单一主导说话人占据了近80%的语料,这可能导致模型过拟合而泛化能力不足;原始音频需经过严格的长度筛选与空标记过滤,以确保数据的一致性与可用性;同时,采用SNAC神经音频编解码器进行令牌化处理,虽提升了效率,但对编码质量与重建保真度提出了更高要求,需平衡压缩率与语音自然度之间的微妙关系。
常用场景
经典使用场景
在语音合成技术领域,低资源语言的语音数据稀缺问题长期制约着相关研究进展。Kinyarwanda Radio TTS数据集通过收录卢旺达广播电台的基尼亚卢旺达语语音片段,为训练高质量的文本到语音模型提供了关键资源。该数据集最经典的使用场景是作为Orpheus TTS系统的训练基础,支持研究者开发能够生成自然流畅基尼亚卢旺达语语音的合成系统,尤其适用于广播新闻风格的语音生成任务。
解决学术问题
该数据集有效解决了低资源语言在语音合成研究中面临的数据匮乏挑战。通过提供高质量的基尼亚卢旺达语语音-文本对齐数据,它使得研究者能够探索跨语言语音合成、少样本学习以及语音编码表示等前沿学术问题。其意义在于推动了语言技术公平性发展,为全球语言多样性保护提供了技术支撑,并促进了语音合成模型在非主流语言上的性能突破。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在低资源语音合成技术路线探索上。研究者利用其SNAC编码音频令牌特征,开发了高效的端到端语音合成管道;基于其多说话人数据开展了说话人自适应与语音克隆研究;同时该数据集也常被用作评估跨语言语音合成模型迁移性能的基准。这些工作共同推动了语音合成技术在资源受限场景下的方法论创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作