five

bookbot/OpenBible_Swahili

收藏
Hugging Face2024-04-05 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/bookbot/OpenBible_Swahili
下载链接
链接失效反馈
官方服务:
资源简介:
OpenBible Swahili是一个基于斯瓦希里语圣经的音频和文本对齐数据集,主要用于自动语音识别(ASR)和文本到语音(TTS)任务。该数据集通过使用Massively Multilingual Speech (MMS)模型进行音频和文本的对齐,并采用了CTC Forced Alignment API进行对齐处理。数据集中包含圣经的每一节经文,音频和文本被分割为节级别的片段,用于TTS模型的训练。数据集还包含一个‘clean’子集,通过长度归一化的概率差异过滤去除了噪声对齐。
提供机构:
bookbot
原始信息汇总

数据集概述

数据集名称

  • 名称: OpenBible Swahili
  • 语言: Swahili (swa)
  • 许可证: CC-BY-SA-4.0

任务类别

  • 自动语音识别
  • 文本到语音

数据集描述

OpenBible Swahili 是一个基于 Swahili 语言的圣经文本的音频数据集,采用 Biblica® Open Kiswahili Contemporary Version (Neno) 的音频版本。该数据集受到 masakhane-io/bibleTTS 和 coqui-ai/open-bible-scripts 项目的启发,并应用了 Massively Multilingual Speech (MMS) 进行音频对齐。

数据集处理

  • 使用 PyTorch 提供的 CTC Forced Alignment API 教程进行音频对齐。
  • 采用 MMS 模型处理音频对齐,解决包括章节介绍叙述、偶尔的诗句编号阅读和数字处理等问题。
  • 实施长度归一化概率差过滤,以移除噪声对齐,使用特定的概率计算公式。

数据集结构

  • 数据实例: 每个实例包含唯一标识符、诗句标识符、音频文件路径、解码音频数组、采样率、诗句文本和转录文本。
  • 数据字段:
    • id: 诗句的唯一标识符。
    • verse_id: 诗句的标识符。
    • audio: 包含音频文件路径、解码音频数组和采样率。
    • verse_text: 包含正确大小写和标点的诗句文本。
    • transcript: 用于强制对齐的诗句文本的低级版本,无标点。

数据分割

  • 数据集分为多个书卷,每个书卷包含不同数量的诗句。
  • 提供“干净”子集,其中某些书卷的诗句数量有所不同。

使用示例

  • 数据集可通过 load_dataset 函数加载,支持加载所有书卷或特定书卷,以及是否加载“干净”子集。

注意事项

  • 2 Chronicles 13-14 的源音频损坏,在非“干净”子集中可能对训练造成问题。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作