UQ Awaz Ambiri

github2020-01-15 更新2024-05-31 收录

下载链接：

https://github.com/namtulla/UQSpeechDataset

下载链接

链接失效反馈

官方服务：

资源简介：

UQ Awaz Ambiri是一个维吾尔语单说话人语音数据集，用于深度学习技术中的文本到语音研究。该数据集包含16187个语音样本，每个样本最长10秒，总时长28小时。数据集基于Exmed Pidaiy朗读的《古兰经》语音，并由Merhum Muhemmed Sali Damolla翻译。数据集提供了多种格式的文本对应，包括维吾尔语阿拉伯字母、拉丁字母和斯拉夫字母。

The UQ Awaz Ambiri is a Uyghur single-speaker speech dataset designed for text-to-speech research in deep learning technologies. It comprises 16,187 speech samples, each up to 10 seconds long, totaling 28 hours of audio. The dataset is based on the recitation of the Quran by Exmed Pidaiy, translated by Merhum Muhemmed Sali Damolla. It offers text correspondences in multiple formats, including Uyghur Arabic script, Latin script, and Cyrillic script.

创建时间：

2020-01-15

原始信息汇总

数据集概述

数据集名称

UQ Awaz Ambiri

数据集创建目的

用于深度学习技术中的文本到语音转换研究，旨在消除维吾尔语语音中的不清晰问题。

数据集内容

包含16187个语音样本，每个样本最长10秒。
总时长约28小时，每个语音样本平均时长包含在内。

数据集来源

由Exmed Pida’iy朗读，Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》语音。

数据集结构

元数据文件（metadata.csv）：使用UTF-8编码，每个条目对应一个语音样本，包含以下四个部分：
- 第一部分：样本的唯一标识，与.wav文件名相关联。
- 第二部分：使用维吾尔阿拉伯字母（UEY）的文本。
- 第三部分：使用维吾尔拉丁字母（ULY）的文本。
- 第四部分：使用维吾尔斯拉夫字母（USY）的文本。
语音样本（wavs）：以16位PCM WAV格式存储，采样率为22050 Hz。

数据集使用

使用时无需任何限制，引用时需提及“Gheyret Kenji, 2019. UQ Awaz Ambiri. https://github.com/gheyret/UQSpeechDataset/”。

数据集下载

可通过Google Drive或Kenjisoft网站下载，文件大小为2.9 GB，格式为7z。

搜集汇总

数据集介绍

构建方式

UQ Awaz Ambiri数据集的构建是基于维吾尔语音频文件和对应的文本内容，旨在填补维吾尔语语音合成领域的数据空白。该数据集的构建利用了Exmed Pida’iy朗读、Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》音频和文本，包含了16187条音频记录，每条记录的音频长度不超过10秒，总时长达到28小时。数据集的文本部分采用了UTF-8编码，并提供了维吾尔语的UEY、ULY、USY三种书写形式的对应文本。

使用方法

使用UQ Awaz Ambiri数据集时，用户可以从Google Drive或Kenjisoft下载完整的7z压缩包。数据集包含的音频文件以单声道、16位PCM WAV格式存储，采样率为22050 Hz。用户在使用前需解压文件，并根据metadata.csv文件中提供的元数据信息，将音频文件与对应的文本内容进行匹配，以进行后续的语音合成研究或应用开发。

背景与挑战

背景概述

UQ Awaz Ambiri数据集是在深度学习领域，针对维吾尔语语音合成（Text To Speech, TTS）的研究中，为填补维吾尔语语音资源的空白而创建的。该数据集由Gheyret Kenji于2019年发起，依托于Exmed Pida’iy的朗读和Merhum Muhemmed Sali Damolla的翻译，基于维吾尔语《古兰经》的音频和文本资料构建而成。该数据集不仅丰富了维吾尔语语音资源，也对维吾尔语语音合成研究产生了重要影响。

当前挑战

该数据集在构建过程中面临的挑战包括：1) 缺乏足够的维吾尔语语音资源，导致研究工作难以开展；2) 语音数据的收集和整理过程复杂，需要克服语言、文化和技术的多重障碍。此外，数据集在处理维吾尔语特有的三种书写系统（UEY、ULY、USY）时，需要确保文本与语音的精确对应，以及适应不同研究者的需求。

常用场景

经典使用场景

UQ Awaz Ambiri数据集，作为深度学习文本转语音（Text To Speech, TTS）领域的重要资源，其经典使用场景主要在于为深度学习模型提供训练素材，以实现对维吾尔语语音的精确合成。该数据集包含了16187条语音记录，每条记录均对应一段文本，从而为模型训练提供了丰富的语音与文本对齐数据。

解决学术问题

该数据集的构建解决了维吾尔语TTS研究中语音资源匮乏的问题，为维吾尔语语音合成提供了高质量的数据基础。它的存在不仅填补了相关领域的空白，也为后续的维吾尔语语音识别和自然语言处理研究提供了宝贵的参考。

实际应用

在实际应用中，UQ Awaz Ambiri数据集可用于开发维吾尔语语音助手、语音合成工具以及教育辅助工具等，对于提高维吾尔族群众的信息技术应用水平和文化传承具有积极意义。

数据集最近研究