deg-speech-text-parallel

Hugging Face2025-06-10 更新2025-06-11 收录

下载链接：

https://huggingface.co/datasets/michsethowusu/deg-speech-text-parallel

下载链接

链接失效反馈

官方服务：

资源简介：

Deg语音文本平行数据集包含61030对主要在加纳使用的Deg语言的语音和文本平行配对。该数据集由音频录音及其对应的文本转录组成，适合用于自动语音识别（ASR）和文本转语音（TTS）等任务。

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

在非洲语言资源稀缺的背景下，deg-speech-text-parallel数据集的构建采用了系统化的多阶段处理流程。原始音频数据通过与加纳语言学机构的合作获取，经过严格的伦理审查和说话人授权。技术处理环节采用文件夹结构匹配音频与文本文件，通过1KB文件大小阈值过滤低质量样本，并运用MMS-300M-1130强制对齐工具进行语音-文本精确对齐，确保每个样本的时序对应关系符合计算语言学标准。

使用方法

该数据集专为语音技术开发生命周期设计，支持端到端的模型训练与评估。研究人员可借助自动语音识别管道将音频解码为文本，或通过文本转语音系统生成Deg语言合成音频。在实际应用中，建议采用五折交叉验证确保模型泛化能力，特别注意处理方言变异和有限词汇表带来的挑战。数据集配套的强制对齐元数据还可用于音素级分析，为低资源语言的语音学研究提供细粒度支持。

背景与挑战

背景概述

在低资源语言技术研究领域，加纳的德格语（Deg）作为非洲代表性语言之一，其数字资源长期匮乏。2025年，加纳语言学、文学与圣经翻译研究所与Davar Partners合作构建了德格语平行语料数据集，包含125,958条语音-文本平行数据。该数据集专注于自动语音识别与文本转语音任务，为西非语言技术研究提供了关键基础设施，显著推动了低资源语言的数字化保存与计算语言学发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，德格语作为低资源语言存在方言变异大、语音标注标准缺失等固有难题，且关键词识别任务需克服音位复杂性带来的模型泛化困境；在构建过程中，原始音频质量参差不齐需通过1KB阈值过滤，文本与语音对齐依赖MMS-300M强制对齐工具的跨语言适配，同时还需处理隐私保护与方言代表性平衡的伦理考量。

常用场景

经典使用场景

在低资源语言处理领域，Deg语音-文本平行数据集为加纳Deg语言的自动语音识别系统开发提供了关键支撑。研究者通过该数据集构建端到端的语音识别模型，利用125,958条平行数据训练声学模型与语言模型，显著提升了对Deg语言音素和词汇的识别准确率。该数据集同时支持跨语言迁移学习，为其他非洲语言的语音技术开发提供重要参照。

解决学术问题

该数据集有效解决了低资源语言技术开发中的核心难题，为Deg语言建立了首个大规模标准化语音语料库。其平行对齐特性支持音位学研究和语音合成系统的开发，填补了非洲语言数字资源的空白。通过提供高质量标注数据，促进了语言技术公平性研究，为保护语言多样性提供了关键技术基础设施。

实际应用

在实际应用层面，该数据集支撑了Deg语言教育软件的开发，使母语者能够通过语音交互学习读写技能。在文化保护领域，基于该数据集构建的语音存档系统有助于保存濒危语言的口头传统。此外，加纳本地机构利用该技术开发了医疗信息语音查询系统，为偏远地区提供无障碍信息服务。

数据集最近研究