UQ Awaz Ambiri|文本到语音转换数据集|Uyghur语言数据集

github2019-05-03 更新2024-05-31 收录

文本到语音转换

Uyghur语言

下载链接：

https://github.com/elipbeopen/UQSpeechDataset

下载链接

链接失效反馈

资源简介：

该数据集是为深度学习技术在文本到语音转换研究中创建的，旨在消除Uyghur语音中的不足。数据集由Exmed Pidaiy朗读，Merhum Muhemmed Sali Damolla翻译的Uyghur语古兰经语音构成，共包含16187个语音片段，最长持续时间为10秒，总时长为28小时。

This dataset was created for research in text-to-speech conversion using deep learning technologies, aiming to address the deficiencies in Uyghur speech. It consists of audio recordings of the Uyghur Quran, recited by Exmed Pidaiy and translated by the late Muhemmed Sali Damolla. The dataset includes a total of 16,187 audio clips, with the longest duration being 10 seconds, amounting to a total duration of 28 hours.

创建时间：

2019-05-01

原始信息汇总

UQ Awaz Ambiri 数据集概述

数据集内容

数据集名称：UQ Awaz Ambiri
数据集目的：用于深度学习技术支持的维吾尔语语音合成（Text To Speech）研究，旨在消除维吾尔语语音中的不清晰问题。
数据来源：由Exmed Pida’iy朗读，Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》语音。
数据集规模：包含16187个语音文件，每个语音文件最长10秒，总时长约28小时。

数据结构

语音文件：以16位PCM WAV格式存储，采样率为22050 Hz。
元数据：存储于metadata.csv文件中，采用UTF-8编码，每个记录包含四个部分：
- 第一部分：语音文件的唯一标识，与.wav文件名对应。
- 第二部分：使用维吾尔阿拉伯字母（UEY）的文本。
- 第三部分：使用维吾尔拉丁字母（ULY）的文本。
- 第四部分：使用维吾尔斯拉夫字母（USY）的文本。

数据集使用

数据集可用于语音与文本的对齐研究，通过程序将《古兰经》的语音部分分割成不超过10秒的片段，并与相应的维吾尔语文本对齐。
数据集的文本部分提供了维吾尔阿拉伯字母、维吾尔拉丁字母和维吾尔斯拉夫字母三种形式的文本，方便研究者使用。

数据集下载

数据集大小为2.9 GB，以7z格式压缩，可通过以下链接下载：
- Google Drive
- Kenjisoft

AI搜集汇总

数据集介绍

构建方式

UQ Awaz Ambiri数据集的构建以深度学习技术为基础，旨在填补维吾尔语语音合成领域的空白。该数据集的构建基于Exmed Pida’iy朗读、Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》音频和文本，包含16187条音频片段，最长音频时长为10秒，总时长约为28小时。数据集采用UTF-8编码的CSV文件存储文本元数据，音频文件则以单声道、16位PCM WAV格式存储，采样率为22050 Hz。

特点

该数据集的特点在于其全面覆盖了维吾尔语的语音资源，提供了文本的三种不同书写形式：维吾尔阿拉伯字母、维吾尔拉丁字母和维吾尔斯拉夫字母，为研究者提供了丰富的选择。此外，数据集通过将《古兰经》的音频分段处理，并与文本进行匹配，确保了音频和文本的一致性。借鉴了英语LJ Speech Dataset的结构，使得该数据集在语音合成领域具有更高的实用性和参考价值。

使用方法

用户可以通过下载Google Drive或Kenjisoft提供的压缩包来获取数据集。解压后，用户将得到文本元数据CSV文件和音频文件。文本文件中包含了每条音频对应的文本信息，而音频文件则以WAV格式存储。用户可以根据自己的研究需求，使用相应的语音处理工具对这些数据进行进一步的分析和处理。

背景与挑战

背景概述

UQ Awaz Ambiri数据集是在深度学习领域内，针对维吾尔语语音合成（Text To Speech, TTS）的研究中，为了填补维吾尔语语音资源的空白而创建的。该数据集由澳大利亚昆士兰大学的Téren Öginish主导开发，以Exmed Pida’iy朗读、Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》音频和文本为基础。该数据集包含了16187条语音记录，每条记录的长度不超过10秒，总时长达到28小时。数据集的构建为维吾尔语语音合成领域的研究提供了宝贵的资源，并对推动该领域的学术发展产生了重要影响。

当前挑战

该数据集在构建过程中面临了多个挑战。首先，维吾尔语语音资源的稀缺性使得数据集的构建尤为困难。其次，在处理和整合文本与语音数据时，需要考虑到维吾尔语三种不同的书写系统（UEY, ULY, USY），这增加了数据处理的复杂性。此外，为了提高数据集的实用性，研究团队采用了与英语LJ Speech Dataset类似的构建方法，并确保了文本的完整性和准确性，这些都是在数据集构建过程中需要克服的挑战。

常用场景

经典使用场景

在深度学习领域，文本转语音（Text To Speech, TTS）技术的研究中，高质量的语音数据集至关重要。UQ Awaz Ambiri数据集旨在填补维吾尔语语音资源的空白，提供了丰富的语音样本，支持研究者进行TTS模型的训练与评估。

衍生相关工作

基于UQ Awaz Ambiri数据集，研究者进一步开发了AwazAmbiriQorali等工具，用于语音与文本的匹配和同步，促进了维吾尔语语音合成技术的进步，并为后续研究提供了宝贵的工具和资源。

数据集最近研究

最新研究方向

在文本到语音（Text To Speech, TTS）领域，UQ Awaz Ambiri数据集的构建旨在填补维吾尔语声音资源的空白。该数据集基于深度学习技术，包含16187个声音样本，总时长28小时，每个声音样本最长10秒。研究前沿主要集中在利用这一声音库进行语音合成和识别，以及促进维吾尔语言文字的数字化保存和传播。其影响不仅体现在语音合成技术的本土化应用，也在于推动多语言环境下语音技术的普及与发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

RFUAV

RFUAV数据集是由浙江科技大学信息科学与工程学院开发的高质量原始射频数据集，包含37种不同无人机的约1.3 TB原始频率数据。该数据集旨在解决现有无人机检测数据集类型单一、数据量不足、信号-to-噪声比(SNR)范围有限等问题，提供了丰富的SNR级别和用于特征提取的基准预处理方法及模型评估工具。数据集适用于射频无人机检测和识别，有助于推动相关技术的研究与应用。

arXiv 收录

中国1km分辨率逐月平均气温数据集（1901-2024）

该数据为中国逐月平均温度数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织（FAO）提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据，旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库，包含多种癌症类型的影像数据，如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息，旨在支持癌症研究和临床应用。