ghananlpcommunity/navigation-corpus-ewe-speech

Name: ghananlpcommunity/navigation-corpus-ewe-speech
Creator: ghananlpcommunity
Published: 2026-04-04 21:55:37
License: 暂无描述

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://hf-mirror.com/datasets/ghananlpcommunity/navigation-corpus-ewe-speech

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - ewe license: cc-by-4.0 task_categories: - automatic-speech-recognition - text-to-speech multilinguality: - monolingual size_categories: - 1K<n<10K tags: - speech - ewe - ghana - african-languages - low-resource - sentence-splits - ctc-aligned - vad-trimmed pretty_name: Ewe Sentence Speech Segments --- # Ewe Speech Segments (sentence splitting) 49348 speech-text pairs split from long recordings. ## Processing pipeline 1. Source audio from `ghananlpcommunity/navigation-corpus-speech-full-ewe` 2. Full-file CTC forced alignment (MMS-300M) for word-level timestamps 3. Sentence-boundary splits (. ? !) — long sentences re-chunked to 16 words 4. Leading/trailing silence trimmed with VAD (-40 dBFS threshold) 5. Filtered: min 1.0s, max 15.0s 6. Original sample rate preserved ## Usage ```python from datasets import load_dataset ds = load_dataset("ghananlpcommunity/navigation-corpus-ewe-speech", split="train") ```

提供机构：

ghananlpcommunity

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，构建高质量的语音数据集对于促进自动语音识别和文本转语音技术的发展至关重要。Ewe语音片段的构建过程始于从`ghananlpcommunity/navigation-corpus-speech-full-ewe`中提取原始音频，随后利用MMS-300M模型进行全文件CTC强制对齐，以获取词级时间戳。基于句子边界标记（如句号、问号和感叹号）进行分割，过长的句子被重新切分为不超过16个词的单位。通过语音活动检测技术，以-40 dBFS为阈值修剪首尾静音部分，并筛选出持续时间在1.0秒至15.0秒之间的片段，最终保留了原始采样率，形成了49348个语音-文本对。

特点

该数据集专注于埃维语这一加纳地区的非洲语言，属于单语低资源语言数据集，规模在1K到10K之间，适用于自动语音识别和文本转语音任务。其核心特点在于经过精细的句子级分割处理，确保了语音片段的连贯性和语义完整性；通过CTC对齐和VAD修剪，提升了时间戳的准确性和音频质量，减少了噪音干扰。数据集的语音片段长度经过严格筛选，既避免了过短片段的信息不足，也防止了过长片段带来的处理复杂度，为低资源语言研究提供了结构化和标准化的语料支持。

使用方法

在语音技术应用中，该数据集可直接用于训练和评估埃维语的自动语音识别或文本转语音模型。用户可以通过Hugging Face的`datasets`库轻松加载数据，使用`load_dataset`函数并指定数据集名称`ghananlpcommunity/navigation-corpus-ewe-speech`及分割方式（如训练集），即可访问语音-文本对。加载后的数据支持进一步预处理，如特征提取或模型微调，为低资源语言研究提供了便捷的接口，有助于推动非洲语言技术的发展和跨语言应用的探索。

背景与挑战

背景概述

在低资源语言语音技术研究领域，埃维语（Ewe）作为加纳及周边地区广泛使用的非洲语言，长期面临语音数据稀缺的困境。为应对这一挑战，加纳自然语言处理社区（GhanaNLP Community）于近年创建了navigation-corpus-ewe-speech数据集，旨在通过系统化的语音-文本对齐与句子分割技术，构建高质量的埃维语语音语料库。该数据集的核心研究问题聚焦于为自动语音识别与文本转语音系统提供可靠训练资源，以推动非洲本土语言在人工智能应用中的包容性发展，对低资源语言语音处理领域具有重要的填补空白意义。

当前挑战

该数据集致力于解决埃维语自动语音识别与合成任务中数据匮乏的根本性挑战，其构建过程面临多重技术难题。原始长音频的精确句子边界检测需克服口语停顿与标点缺失的不确定性，而基于CTC强制对齐的词级时间戳提取在低资源条件下易受声学变异干扰。此外，静音修剪与时长过滤需平衡语音段完整性与噪声抑制，以保障数据纯净度。这些处理步骤共同指向低资源语言语音数据标准化与可扩展化的核心瓶颈。

常用场景

经典使用场景

在低资源语言处理领域，埃维语作为加纳及周边地区使用的重要非洲语言，长期面临语音数据稀缺的挑战。该数据集通过将长录音切分为句子级别的语音-文本对，为自动语音识别和文本到语音合成任务提供了结构化资源。其经典使用场景包括训练端到端语音识别模型，利用CTC对齐技术确保时间戳的精确性，支持研究者开发针对埃维语的声学模型，有效缓解数据不足带来的模型泛化问题。

衍生相关工作

围绕该数据集衍生的经典工作包括基于MMS-300M模型的跨语言语音识别适配研究，以及针对低资源语言的端到端语音合成系统优化。许多研究利用其句子分割与VAD修剪特性，探索多任务学习框架，提升模型在噪声环境下的鲁棒性。此外，它常被用作基准数据，评估迁移学习与数据增强方法在非洲语言任务上的效能。

数据集最近研究