bookbot/OpenBible_Swahili
收藏Hugging Face2024-04-05 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/bookbot/OpenBible_Swahili
下载链接
链接失效反馈官方服务:
资源简介:
OpenBible Swahili是一个基于斯瓦希里语圣经的音频和文本对齐数据集,主要用于自动语音识别(ASR)和文本到语音(TTS)任务。该数据集通过使用Massively Multilingual Speech (MMS)模型进行音频和文本的对齐,并采用了CTC Forced Alignment API进行对齐处理。数据集中包含圣经的每一节经文,音频和文本被分割为节级别的片段,用于TTS模型的训练。数据集还包含一个‘clean’子集,通过长度归一化的概率差异过滤去除了噪声对齐。
提供机构:
bookbot
原始信息汇总
数据集概述
数据集名称
- 名称: OpenBible Swahili
- 语言: Swahili (swa)
- 许可证: CC-BY-SA-4.0
任务类别
- 自动语音识别
- 文本到语音
数据集描述
OpenBible Swahili 是一个基于 Swahili 语言的圣经文本的音频数据集,采用 Biblica® Open Kiswahili Contemporary Version (Neno) 的音频版本。该数据集受到 masakhane-io/bibleTTS 和 coqui-ai/open-bible-scripts 项目的启发,并应用了 Massively Multilingual Speech (MMS) 进行音频对齐。
数据集处理
- 使用 PyTorch 提供的 CTC Forced Alignment API 教程进行音频对齐。
- 采用 MMS 模型处理音频对齐,解决包括章节介绍叙述、偶尔的诗句编号阅读和数字处理等问题。
- 实施长度归一化概率差过滤,以移除噪声对齐,使用特定的概率计算公式。
数据集结构
- 数据实例: 每个实例包含唯一标识符、诗句标识符、音频文件路径、解码音频数组、采样率、诗句文本和转录文本。
- 数据字段:
id: 诗句的唯一标识符。verse_id: 诗句的标识符。audio: 包含音频文件路径、解码音频数组和采样率。verse_text: 包含正确大小写和标点的诗句文本。transcript: 用于强制对齐的诗句文本的低级版本,无标点。
数据分割
- 数据集分为多个书卷,每个书卷包含不同数量的诗句。
- 提供“干净”子集,其中某些书卷的诗句数量有所不同。
使用示例
- 数据集可通过
load_dataset函数加载,支持加载所有书卷或特定书卷,以及是否加载“干净”子集。
注意事项
- 2 Chronicles 13-14 的源音频损坏,在非“干净”子集中可能对训练造成问题。



