bookbot/OpenBible_Swahili

Name: bookbot/OpenBible_Swahili
Creator: bookbot
Published: 2024-04-05 14:58:40
License: 暂无描述

Hugging Face2024-04-05 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/bookbot/OpenBible_Swahili

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBible Swahili是一个基于斯瓦希里语圣经的音频和文本对齐数据集，主要用于自动语音识别（ASR）和文本到语音（TTS）任务。该数据集通过使用Massively Multilingual Speech (MMS)模型进行音频和文本的对齐，并采用了CTC Forced Alignment API进行对齐处理。数据集中包含圣经的每一节经文，音频和文本被分割为节级别的片段，用于TTS模型的训练。数据集还包含一个‘clean’子集，通过长度归一化的概率差异过滤去除了噪声对齐。

提供机构：

bookbot

原始信息汇总

数据集概述

数据集名称

名称: OpenBible Swahili
语言: Swahili (swa)
许可证: CC-BY-SA-4.0

任务类别

自动语音识别
文本到语音

数据集描述

OpenBible Swahili 是一个基于 Swahili 语言的圣经文本的音频数据集，采用 Biblica® Open Kiswahili Contemporary Version (Neno) 的音频版本。该数据集受到 masakhane-io/bibleTTS 和 coqui-ai/open-bible-scripts 项目的启发，并应用了 Massively Multilingual Speech (MMS) 进行音频对齐。

数据集处理

使用 PyTorch 提供的 CTC Forced Alignment API 教程进行音频对齐。
采用 MMS 模型处理音频对齐，解决包括章节介绍叙述、偶尔的诗句编号阅读和数字处理等问题。
实施长度归一化概率差过滤，以移除噪声对齐，使用特定的概率计算公式。

数据集结构

数据实例: 每个实例包含唯一标识符、诗句标识符、音频文件路径、解码音频数组、采样率、诗句文本和转录文本。
数据字段:
- id: 诗句的唯一标识符。
- verse_id: 诗句的标识符。
- audio: 包含音频文件路径、解码音频数组和采样率。
- verse_text: 包含正确大小写和标点的诗句文本。
- transcript: 用于强制对齐的诗句文本的低级版本，无标点。

数据分割

数据集分为多个书卷，每个书卷包含不同数量的诗句。
提供“干净”子集，其中某些书卷的诗句数量有所不同。

使用示例

数据集可通过 load_dataset 函数加载，支持加载所有书卷或特定书卷，以及是否加载“干净”子集。

注意事项

2 Chronicles 13-14 的源音频损坏，在非“干净”子集中可能对训练造成问题。

5,000+

优质数据集

54 个

任务类型

进入经典数据集