twi-words-speech-text-parallel

Hugging Face2025-06-12 更新2025-06-13 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/twi-words-speech-text-parallel

下载链接

链接失效反馈

官方服务：

资源简介：

Twi（Akan）语音-文本平行数据集，包含413463个语音-文本对，适用于自动语音识别、文本到语音、关键词定位等任务。数据集由音频记录和对应的文本转录组成，适用于加纳地区使用的Twi语言。

This Twi (Akan) speech-text parallel dataset includes 413,463 speech-text pairs, and is suitable for tasks including automatic speech recognition, text-to-speech synthesis, and keyword spotting. Composed of audio recordings and their corresponding transcriptions, the dataset is developed for the Twi language as spoken in the Ghanaian region.

创建时间：

2025-06-12

搜集汇总

数据集介绍

构建方式

在加纳阿坎语资源稀缺的背景下，该数据集通过伦理采集的语音资料，采用强制对齐技术进行词汇级切分。数据处理过程中运用音量阈值和时长过滤机制，剔除静音段与低质量样本，并添加百毫秒缓冲确保语音完整性。所有音频文本对均经过MMS-300M-1130强制对齐工具的质量验证，最终形成编号对应的WAV音频与文本文件对。

特点

作为西非低资源语言的代表性语料，该数据集囊括41万余条精准对齐的语音文本对，覆盖加纳地区主要方言变体。其突出特点在于严格的质控标准：所有音频均满足最小时长要求，且通过声学特征过滤确保有效语音内容。数据集采用标准化WAV格式存储，文本标注采用UTF-8编码，支持语音识别与合成系统的端到端训练。

使用方法

该数据集专为语音技术研发设计，可通过HuggingFace数据集库直接加载。典型应用场景包括阿坎语端到端语音识别模型训练，通过迭代学习音频频谱与文本序列的映射关系。同时支持文本转语音系统的声学建模，利用平行语料学习音素到声学特征的转换。研究人员还可基于词汇级标注开展音系学分析和关键词检测任务。

背景与挑战

背景概述

在非洲语言资源稀缺的背景下，Twi语语音-文本平行数据集由加纳语言学院与Davar Partners于2025年合作构建，专注于解决低资源语言自动语音识别与文本转语音的核心问题。该数据集包含41万余条精心处理的语音-文本对，为特维语（Akan语支）的数字保存与技术开发提供了重要支撑，显著推动了非洲语言技术在学术与工业界的应用进展。

当前挑战

该数据集致力于攻克低资源语言语音技术中的词汇级语音识别与合成挑战，其构建过程面临多重困难：原始音频需通过强制对齐技术实现精确分词，并需过滤静音片段与低质量录音；同时，方言多样性、录音条件不一致以及词汇覆盖有限等问题，进一步增加了数据质量控制的复杂度。

常用场景

经典使用场景

在低资源语言技术研究领域，该数据集为特维语（Twi）自动语音识别系统提供了关键训练资源。研究者通过其高质量的音频-文本平行语料，构建端到端的语音识别模型，显著提升了对加纳地区主要民族语言的处理能力。该数据集支持从声学建模到语言模型训练的全流程开发，为非洲语言计算语言学奠定数据基础。

衍生相关工作

该数据集催生了多项重要研究工作，包括基于MMS-300M对齐器的特维语语音合成系统、跨语言语音识别迁移学习框架，以及低资源语言词性标注工具。这些衍生成果不仅扩展了数据集的学术价值，更形成了特维语自然语言处理的技术生态，为其他非洲语言研究提供了可复用的方法论范式。

数据集最近研究