five

UGSpeechData

收藏
github2025-01-08 更新2025-01-10 收录
下载链接:
https://github.com/HCI-LAB-UGSPEECHDATA/speech_data_ghana_ug
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含5000小时的阿坎语、埃维语、达格班语、达加雷语和伊克波索语的语音语料库。每种语言包括1000小时的土著语言使用者的音频语音和100小时的转录。

This dataset constitutes a 5000-hour speech corpus spanning five languages, namely Akan, Ewe, Dagbani, Dagare, and Ikpeshi. For each individual language, the corpus includes 1000 hours of audio speech produced by indigenous speakers, alongside 100 hours of corresponding aligned transcriptions.
创建时间:
2024-12-29
原始信息汇总

数据集概述

数据集名称

UGSpeechData - 加纳五种语言的音频语音数据集(阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语)

数据集内容

  • 总时长:5000小时的语音语料库
  • 语言种类:阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语
  • 每种语言的音频时长:1000小时
  • 每种语言的转录时长:100小时

数据资产链接

AUDIO_ID.csv 文件描述

列名 描述
IMAGE_URL 提供文件夹中图像的相对路径
IMAGE_SRC_URL 提供实际图像的在线源路径
AUDIO_URL 提供本地音频文件夹中音频语言的相对路径
ORG_NAME 标识协调音频收集的机构
PROJECT_NAME 提供项目名称
SPEAKER_ID 提供描述图像的个人的ID号
LOCALE 提供音频文件的本地语言IETF BCP 47语言标签
GENDER 提供音频描述者的性别
AGE 提供音频描述者的年龄
DEVICE 标识进行音频录制的设备
ENVIRONMENT 标识音频录制的空间
YEAR 音频录制的年份

本地ID

本地ID 名称
ak_gh 阿坎语
dga_gh 达格巴尼语
dag_gh 达加雷语
ee_gh 埃维语
kpo_gh 伊克波索语

引用

Wiafe, I., Abdulai, J., Ekpezu, A. O., Dodzi, R., Atsakpo, E. D., Nutrokpor, C., Winful, F. B. P., & Solaga, K. K. (2023). UGSPEECHDATA (Version 1.0.0) [Data set]. https://github.com/isaacwiafe/speech_data_ug

搜集汇总
数据集介绍
main_image_url
构建方式
UGSpeechData数据集的构建基于加纳五种本土语言的语音数据,包括阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语。数据收集过程涵盖了5000小时的语音语料库,每种语言包含1000小时的音频数据,并附有100小时的转录文本。数据来源于本土语言使用者,确保了语言的纯正性和多样性。音频数据通过多种设备在不同环境中录制,确保了数据的广泛性和实用性。
使用方法
UGSpeechData数据集的使用方法较为直观,用户可以通过提供的CSV文件访问音频数据和相关元数据。CSV文件中包含了音频文件的本地路径、在线路径、说话者信息、录音设备、录音环境等详细信息。用户可以根据这些信息进行语音识别、语言学研究或其他相关任务。数据集还提供了音频文件的转录文本,便于用户进行语音到文本的转换和分析。通过结合元数据,用户可以进一步分析不同语言、性别、年龄等因素对语音数据的影响。
背景与挑战
背景概述
UGSpeechData数据集由加纳大学的研究团队于2023年发布,旨在为五种加纳本土语言(阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语)提供大规模的语音语料库。该数据集包含5000小时的语音数据,每种语言均有1000小时的音频记录和100小时的转录文本。这一数据集的创建不仅填补了非洲本土语言语音数据的空白,还为语音识别、自然语言处理等领域的研究提供了宝贵的资源。通过涵盖多种语言和丰富的元数据信息,UGSpeechData为跨语言语音技术的研究奠定了坚实的基础。
当前挑战
UGSpeechData数据集在构建过程中面临多重挑战。首先,加纳本土语言的语音数据稀缺,且缺乏标准化的转录规范,导致数据收集和标注的复杂性增加。其次,由于这些语言的使用者多分布在偏远地区,录音环境的多样性和设备的不一致性对数据质量产生了显著影响。此外,语音数据的多样性和方言差异使得模型的泛化能力面临考验。尽管数据集为语音识别和语言学研究提供了重要支持,但在实际应用中,如何有效处理低资源语言的语音数据仍是一个亟待解决的难题。
常用场景
经典使用场景
UGSpeechData数据集在语音识别和自然语言处理领域具有广泛的应用。其包含的5000小时加纳五种本土语言的语音数据,为研究人员提供了丰富的语料库,用于训练和测试语音识别模型。特别是在低资源语言的研究中,该数据集为Akan、Ewe、Dagbani、Dagaare和Ikposo等语言的语音识别技术发展提供了重要支持。
解决学术问题
UGSpeechData解决了低资源语言语音数据匮乏的学术难题。通过提供大量本土语言的语音和转录数据,研究人员能够深入分析这些语言的语音特征,开发针对性的语音识别和合成技术。这不仅推动了加纳本土语言的技术进步,还为全球低资源语言的研究提供了宝贵的参考。
实际应用
在实际应用中,UGSpeechData为加纳本土语言的语音助手、语音翻译系统和教育工具的开发提供了基础数据支持。例如,基于该数据集的语音识别技术可以应用于加纳的医疗、教育和公共服务领域,帮助提升语言障碍者的沟通效率,促进本土语言的数字化发展。
数据集最近研究
最新研究方向
UGSpeechData作为加纳五种本土语言的语音数据集,近年来在语音识别和自然语言处理领域引起了广泛关注。该数据集涵盖了阿坎语、埃维语、达格巴尼语、达加雷语和伊克波索语,总计5000小时的语音语料库,每种语言包含1000小时的音频和100小时的转录文本。这一丰富的多语言资源为低资源语言的语音识别模型训练提供了重要支持,尤其是在非洲语言的语音技术研究中具有显著意义。当前的研究方向主要集中在如何利用该数据集提升低资源语言的语音识别准确率,探索跨语言迁移学习的潜力,以及开发适用于多语言环境的语音合成技术。UGSpeechData的发布不仅填补了非洲语言语音数据的空白,还为全球语言多样性的保护和技术发展提供了有力支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作