UQ Awaz Ambiri

github2023-11-03 更新2024-05-31 收录

下载链接：

https://github.com/gheyret/UQSpeechDataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个维吾尔语单说话人语音数据集，用于深度学习技术中的文本到语音研究。数据集包含16187个语音样本，每个样本最长10秒，总时长28小时。数据集的语音样本由Exmed Pidaiy朗读，Merhum Muhemmed Sali Damolla翻译的维吾尔语古兰经语音构成。数据集提供了详细的元数据，包括语音样本的名称、维吾尔语阿拉伯字母文本、维吾尔语拉丁字母文本和维吾尔语斯拉夫字母文本。

This is a Uyghur single-speaker speech dataset designed for text-to-speech research in deep learning technologies. The dataset comprises 16,187 speech samples, each with a maximum duration of 10 seconds, totaling 28 hours. The speech samples in the dataset are derived from the Uyghur Quranic recitations by Exmed Pidaiy, translated by Merhum Muhemmed Sali Damolla. The dataset provides detailed metadata, including the names of the speech samples, Uyghur Arabic script text, Uyghur Latin script text, and Uyghur Cyrillic script text.

创建时间：

2019-04-09

原始信息汇总

数据集概述

数据集名称： UQ Awaz Ambiri

创建目的： 用于深度学习技术研究，旨在解决维吾尔语语音合成（Text To Speech）中的语音质量问题。

数据集内容：

语音样本数量： 16187个
语音样本最长时长： 10秒
总语音时长： 28小时

数据集结构：

语音文件格式： 16位PCM WAV，采样率为22050 Hz
元数据文件（metadata.csv）： 使用UTF-8编码，每个记录包含四个部分：
- 第一部分：语音文件名（加上.wav后缀）
- 第二部分：使用维吾尔阿拉伯字母（UEY）的文本
- 第三部分：使用维吾尔拉丁字母（ULY）的文本
- 第四部分：使用维吾尔斯拉夫字母（USY）的文本

数据集来源： 由Exmed Pida’iy朗读，Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》语音。

相关项目： 通过程序将《古兰经》的语音数据分割成不超过10秒的片段，并创建了AwazAmbiriQorali项目，用于语音和文本的对齐。

数据集下载：

数据集大小： 2.9 GB，以7z格式压缩。

搜集汇总

数据集介绍

构建方式

UQ Awaz Ambiri数据集的构建基于深度学习技术，旨在填补维吾尔语语音合成研究中的空白。该数据集以艾哈迈德·皮达伊朗读、已故穆罕默德·萨利·达莫拉翻译的《古兰经》维吾尔语版音频和文本为基础，通过程序将音频分割为不超过10秒的片段，并使用自开发的工具AwazAmbiriQorali将音频与文本进行匹配。数据集包含16187个音频文件及其对应的文本，音频总时长达28小时。

特点

UQ Awaz Ambiri数据集的特点在于其多样化的文本表示形式，每段音频均配有维吾尔语阿拉伯字母（UEY）、拉丁字母（ULY）和斯拉夫字母（USY）三种书写形式的文本。音频文件以16位PCM WAV格式存储，采样率为22050 Hz，单声道。此外，数据集中的数字已全部转换为文字形式，便于研究使用。数据集的构建参考了LJ Speech Dataset的结构，为语音合成研究提供了高质量的维吾尔语资源。

使用方法

UQ Awaz Ambiri数据集的使用方法较为灵活，用户可通过GitHub或Google Drive下载压缩包。数据集包含metadata.csv文件，其中记录了音频文件的ID及其对应的三种书写形式的文本。音频文件存储在wavs文件夹中，用户可根据metadata.csv中的ID与音频文件进行匹配。该数据集适用于维吾尔语语音合成、语音识别等研究领域，使用时需在相关论文或产品中注明数据来源，以尊重原作者的贡献。

背景与挑战

背景概述

UQ Awaz Ambiri数据集由Gheyret Kenji于2019年创建，旨在填补维吾尔语文本到语音（Text To Speech, TTS）研究领域的空白。该数据集基于艾哈迈德·皮达伊（Exmed Pida’iy）朗读、已故穆罕默德·萨利·达莫拉（Merhum Muhemmed Sali Damolla）翻译的《古兰经》维吾尔语版本构建，包含16,187个音频文件及其对应的文本数据，总时长约28小时。数据集的构建不仅为维吾尔语TTS研究提供了重要资源，还推动了少数民族语言在深度学习领域的应用。其文本部分以维吾尔语的阿拉伯字母（UEY）、拉丁字母（ULY）和斯拉夫字母（USY）三种形式呈现，极大地方便了研究者的使用。

当前挑战

UQ Awaz Ambiri数据集在构建过程中面临多重挑战。首先，维吾尔语作为一种低资源语言，缺乏高质量的语音和文本对齐数据，这对数据集的构建提出了较高要求。其次，音频文件需要从《古兰经》的长篇朗读中分割为10秒以内的片段，并确保与文本的精确对齐，这一过程耗时且复杂。此外，数据集的文本部分需要转换为三种不同的书写形式，进一步增加了数据处理的工作量。尽管数据集为维吾尔语TTS研究提供了重要支持，但其规模相对较小，且缺乏多样化的语音样本，这限制了其在更广泛场景中的应用。未来，如何扩展数据集的规模和多样性，以及提升语音与文本对齐的精度，仍是亟待解决的问题。

常用场景

经典使用场景

UQ Awaz Ambiri数据集在深度学习领域，尤其是文本到语音（Text To Speech, TTS）研究中，扮演着至关重要的角色。该数据集通过提供高质量的维吾尔语语音样本，填补了该语言在TTS研究中的空白。研究者可以利用该数据集训练和优化维吾尔语TTS模型，从而推动该语言在语音合成领域的发展。

解决学术问题

UQ Awaz Ambiri数据集解决了维吾尔语语音合成研究中数据稀缺的问题。通过提供16187个语音样本及其对应的文本，该数据集为研究者提供了丰富的训练数据，使得维吾尔语TTS模型的开发成为可能。这不仅推动了维吾尔语语音技术的发展，还为其他低资源语言的语音合成研究提供了参考。

衍生相关工作

UQ Awaz Ambiri数据集衍生了一系列相关研究，包括基于深度学习的维吾尔语TTS模型优化、多语言语音合成系统的开发以及低资源语言语音合成技术的探索。这些研究不仅扩展了数据集的应用范围，还为其他低资源语言的语音合成研究提供了宝贵的经验和技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集