ghananlpcommunity/ewe-bible-audio-text-tts

Name: ghananlpcommunity/ewe-bible-audio-text-tts
Creator: ghananlpcommunity
Published: 2026-04-03 13:15:52
License: 暂无描述

Hugging Face2026-04-03 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/ghananlpcommunity/ewe-bible-audio-text-tts

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - twi license: cc-by-4.0 task_categories: - automatic-speech-recognition - text-to-speech multilinguality: - monolingual size_categories: - 1K<n<10K tags: - speech - twi - ghana - african-languages - low-resource - 16gram-splits - ctc-aligned - vad-trimmed pretty_name: Twi 16-Word Speech Segments --- # Twi 16-Word Speech Segments 48775 speech-text pairs split from long recordings. ## Processing pipeline 1. Source audio from `ghananlpcommunity/ewe-tts-bible-full-audio-text` 2. Full-file CTC forced alignment (MMS-300M) for word-level timestamps 3. Words grouped into 16-word segments 4. Leading/trailing silence trimmed with VAD (-40 dBFS threshold) 5. Filtered: min 1.0s, max 15.0s 6. Original sample rate preserved (24kHz) ## Usage ```python from datasets import load_dataset ds = load_dataset("ghananlpcommunity/ewe-bible-audio-text-tts", split="train") ```

提供机构：

ghananlpcommunity

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，构建高质量的语音-文本对齐数据集面临诸多挑战。Twi 16-Word Speech Segments数据集源自加纳阿肯语支的Twi语，其构建过程采用了系统化的处理流程：首先从原始圣经录音中提取音频，利用大规模多语言语音识别模型进行强制对齐，获得精确到词级别的时间戳；随后将词语组合为16词片段，通过语音活动检测技术修剪静音部分；最终依据时长标准筛选出符合要求的语音片段，完整保留了原始24kHz采样率，确保了数据的声学质量。

使用方法

在语音技术研究中，该数据集为自动语音识别和文本转语音任务提供了直接支持。研究人员可通过Hugging Face数据集库便捷加载，使用标准接口访问训练分割；数据集的规范化格式允许直接应用于端到端语音处理模型的训练与评估。鉴于其低资源语言属性和精细对齐特性，该数据集特别适合用于跨语言迁移学习、少样本语音模型适配，以及针对非洲语言的语言技术开发，为促进语言多样性在人工智能领域的体现提供了实用资源。

背景与挑战

背景概述

在低资源语言处理领域，加纳阿肯语支的契维语（Twi）作为西非广泛使用的语言之一，长期面临语音数据稀缺的困境。2024年，加纳自然语言处理社区（GhanaNLP Community）基于开源圣经录音构建了Twi 16词语音片段数据集，旨在推动契维语的自动语音识别与文本到语音合成研究。该数据集通过CTC强制对齐与语音活动检测技术，从长音频中提取了48775个16词片段的语音-文本对，为低资源语言的语音模型训练提供了结构化、高质量的标注资源，对促进非洲本土语言的数字包容性具有重要价值。

当前挑战

该数据集致力于解决低资源语言语音处理中的核心挑战，即如何在有限标注数据下提升自动语音识别与文本到语音合成的性能。构建过程中，研究人员需应对长音频对齐的精度问题，利用MMS-300M模型进行词级时间戳标注，并克服语音活动检测中环境噪声与静音片段的干扰。此外，数据筛选需平衡片段时长与内容完整性，确保片段时长介于1至15秒之间，同时保持原始24kHz采样率以保障语音质量，这些步骤均对技术鲁棒性与计算资源提出了较高要求。

常用场景

经典使用场景

在低资源语言处理领域，Twi 16-Word Speech Segments数据集为特维语（Twi）的自动语音识别与文本转语音研究提供了关键支持。该数据集通过CTC强制对齐技术，将长音频切分为16词片段的语音-文本对，有效解决了长序列建模中的计算复杂度问题。研究者可基于这些精细对齐的片段，训练端到端的语音识别模型，或构建高质量的文本转语音系统，特别适用于圣经朗读等规整文本场景。

解决学术问题

该数据集直接应对非洲低资源语言语音技术发展的核心挑战。通过提供大规模、高质量的对齐语音数据，它填补了特维语语音语料库的空白，支持语音识别中声学模型与语言模型的联合优化。其精确的词级时间戳标注，为研究多语言语音模型迁移学习、少样本语音合成等前沿课题提供了实验基础，推动了语言技术公平性与包容性的学术讨论。

实际应用

在实际应用中，该数据集能够赋能加纳及西非地区的本地化语音技术开发。基于此训练的模型可集成至教育软件，辅助特维语学习者的发音矫正；亦可应用于公共服务领域，如开发圣经有声读物、广播新闻自动转写工具，或为听障人士提供实时字幕生成服务。这些应用显著提升了信息获取的可及性，促进了语言文化遗产的数字化保存。

数据集最近研究