UGSpeechData

github2025-01-08 更新2025-01-10 收录

下载链接：

https://github.com/HCI-LAB-UGSPEECHDATA/speech_data_ghana_ug

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含5000小时的阿坎语、埃维语、达格班语、达加雷语和伊克波索语的语音语料库。每种语言包括1000小时的土著语言使用者的音频语音和100小时的转录。

This dataset constitutes a 5000-hour speech corpus spanning five languages, namely Akan, Ewe, Dagbani, Dagare, and Ikpeshi. For each individual language, the corpus includes 1000 hours of audio speech produced by indigenous speakers, alongside 100 hours of corresponding aligned transcriptions.

创建时间：

2024-12-29

原始信息汇总

数据集概述

数据集名称

UGSpeechData - 加纳五种语言的音频语音数据集（阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语）

数据集内容

总时长：5000小时的语音语料库
语言种类：阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语
每种语言的音频时长：1000小时
每种语言的转录时长：100小时

数据资产链接

本地音频 + AUDIO ID.csv

AUDIO_ID.csv 文件描述

列名	描述
`IMAGE_URL`	提供文件夹中图像的相对路径
`IMAGE_SRC_URL`	提供实际图像的在线源路径
`AUDIO_URL`	提供本地音频文件夹中音频语言的相对路径
`ORG_NAME`	标识协调音频收集的机构
`PROJECT_NAME`	提供项目名称
`SPEAKER_ID`	提供描述图像的个人的ID号
`LOCALE`	提供音频文件的本地语言IETF BCP 47语言标签
`GENDER`	提供音频描述者的性别
`AGE`	提供音频描述者的年龄
`DEVICE`	标识进行音频录制的设备
`ENVIRONMENT`	标识音频录制的空间
`YEAR`	音频录制的年份

本地ID

本地ID	名称
`ak_gh`	阿坎语
`dga_gh`	达格巴尼语
`dag_gh`	达加雷语
`ee_gh`	埃维语
`kpo_gh`	伊克波索语

引用

Wiafe, I., Abdulai, J., Ekpezu, A. O., Dodzi, R., Atsakpo, E. D., Nutrokpor, C., Winful, F. B. P., & Solaga, K. K. (2023). UGSPEECHDATA (Version 1.0.0) [Data set]. https://github.com/isaacwiafe/speech_data_ug

搜集汇总

数据集介绍

构建方式

UGSpeechData数据集的构建基于加纳五种本土语言的语音数据，包括阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语。数据收集过程涵盖了5000小时的语音语料库，每种语言包含1000小时的音频数据，并附有100小时的转录文本。数据来源于本土语言使用者，确保了语言的纯正性和多样性。音频数据通过多种设备在不同环境中录制，确保了数据的广泛性和实用性。

使用方法

UGSpeechData数据集的使用方法较为直观，用户可以通过提供的CSV文件访问音频数据和相关元数据。CSV文件中包含了音频文件的本地路径、在线路径、说话者信息、录音设备、录音环境等详细信息。用户可以根据这些信息进行语音识别、语言学研究或其他相关任务。数据集还提供了音频文件的转录文本，便于用户进行语音到文本的转换和分析。通过结合元数据，用户可以进一步分析不同语言、性别、年龄等因素对语音数据的影响。

背景与挑战

背景概述

UGSpeechData数据集由加纳大学的研究团队于2023年发布，旨在为五种加纳本土语言（阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语）提供大规模的语音语料库。该数据集包含5000小时的语音数据，每种语言均有1000小时的音频记录和100小时的转录文本。这一数据集的创建不仅填补了非洲本土语言语音数据的空白，还为语音识别、自然语言处理等领域的研究提供了宝贵的资源。通过涵盖多种语言和丰富的元数据信息，UGSpeechData为跨语言语音技术的研究奠定了坚实的基础。

当前挑战

UGSpeechData数据集在构建过程中面临多重挑战。首先，加纳本土语言的语音数据稀缺，且缺乏标准化的转录规范，导致数据收集和标注的复杂性增加。其次，由于这些语言的使用者多分布在偏远地区，录音环境的多样性和设备的不一致性对数据质量产生了显著影响。此外，语音数据的多样性和方言差异使得模型的泛化能力面临考验。尽管数据集为语音识别和语言学研究提供了重要支持，但在实际应用中，如何有效处理低资源语言的语音数据仍是一个亟待解决的难题。

常用场景

经典使用场景

UGSpeechData数据集在语音识别和自然语言处理领域具有广泛的应用。其包含的5000小时加纳五种本土语言的语音数据，为研究人员提供了丰富的语料库，用于训练和测试语音识别模型。特别是在低资源语言的研究中，该数据集为Akan、Ewe、Dagbani、Dagaare和Ikposo等语言的语音识别技术发展提供了重要支持。

解决学术问题

UGSpeechData解决了低资源语言语音数据匮乏的学术难题。通过提供大量本土语言的语音和转录数据，研究人员能够深入分析这些语言的语音特征，开发针对性的语音识别和合成技术。这不仅推动了加纳本土语言的技术进步，还为全球低资源语言的研究提供了宝贵的参考。

实际应用

在实际应用中，UGSpeechData为加纳本土语言的语音助手、语音翻译系统和教育工具的开发提供了基础数据支持。例如，基于该数据集的语音识别技术可以应用于加纳的医疗、教育和公共服务领域，帮助提升语言障碍者的沟通效率，促进本土语言的数字化发展。

数据集最近研究