five

UQ Awaz Ambiri|文本到语音转换数据集|Uyghur语言数据集

收藏
github2019-05-03 更新2024-05-31 收录
文本到语音转换
Uyghur语言
下载链接:
https://github.com/elipbeopen/UQSpeechDataset
下载链接
链接失效反馈
资源简介:
该数据集是为深度学习技术在文本到语音转换研究中创建的,旨在消除Uyghur语音中的不足。数据集由Exmed Pidaiy朗读,Merhum Muhemmed Sali Damolla翻译的Uyghur语古兰经语音构成,共包含16187个语音片段,最长持续时间为10秒,总时长为28小时。

This dataset was created for research in text-to-speech conversion using deep learning technologies, aiming to address the deficiencies in Uyghur speech. It consists of audio recordings of the Uyghur Quran, recited by Exmed Pidaiy and translated by the late Muhemmed Sali Damolla. The dataset includes a total of 16,187 audio clips, with the longest duration being 10 seconds, amounting to a total duration of 28 hours.
创建时间:
2019-05-01
原始信息汇总

UQ Awaz Ambiri 数据集概述

数据集内容

  • 数据集名称:UQ Awaz Ambiri
  • 数据集目的:用于深度学习技术支持的维吾尔语语音合成(Text To Speech)研究,旨在消除维吾尔语语音中的不清晰问题。
  • 数据来源:由Exmed Pida’iy朗读,Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》语音。
  • 数据集规模:包含16187个语音文件,每个语音文件最长10秒,总时长约28小时。

数据结构

  • 语音文件:以16位PCM WAV格式存储,采样率为22050 Hz。
  • 元数据:存储于metadata.csv文件中,采用UTF-8编码,每个记录包含四个部分:
    • 第一部分:语音文件的唯一标识,与.wav文件名对应。
    • 第二部分:使用维吾尔阿拉伯字母(UEY)的文本。
    • 第三部分:使用维吾尔拉丁字母(ULY)的文本。
    • 第四部分:使用维吾尔斯拉夫字母(USY)的文本。

数据集使用

  • 数据集可用于语音与文本的对齐研究,通过程序将《古兰经》的语音部分分割成不超过10秒的片段,并与相应的维吾尔语文本对齐。
  • 数据集的文本部分提供了维吾尔阿拉伯字母、维吾尔拉丁字母和维吾尔斯拉夫字母三种形式的文本,方便研究者使用。

数据集下载

AI搜集汇总
数据集介绍
main_image_url
构建方式
UQ Awaz Ambiri数据集的构建以深度学习技术为基础,旨在填补维吾尔语语音合成领域的空白。该数据集的构建基于Exmed Pida’iy朗读、Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》音频和文本,包含16187条音频片段,最长音频时长为10秒,总时长约为28小时。数据集采用UTF-8编码的CSV文件存储文本元数据,音频文件则以单声道、16位PCM WAV格式存储,采样率为22050 Hz。
特点
该数据集的特点在于其全面覆盖了维吾尔语的语音资源,提供了文本的三种不同书写形式:维吾尔阿拉伯字母、维吾尔拉丁字母和维吾尔斯拉夫字母,为研究者提供了丰富的选择。此外,数据集通过将《古兰经》的音频分段处理,并与文本进行匹配,确保了音频和文本的一致性。借鉴了英语LJ Speech Dataset的结构,使得该数据集在语音合成领域具有更高的实用性和参考价值。
使用方法
用户可以通过下载Google Drive或Kenjisoft提供的压缩包来获取数据集。解压后,用户将得到文本元数据CSV文件和音频文件。文本文件中包含了每条音频对应的文本信息,而音频文件则以WAV格式存储。用户可以根据自己的研究需求,使用相应的语音处理工具对这些数据进行进一步的分析和处理。
背景与挑战
背景概述
UQ Awaz Ambiri数据集是在深度学习领域内,针对维吾尔语语音合成(Text To Speech, TTS)的研究中,为了填补维吾尔语语音资源的空白而创建的。该数据集由澳大利亚昆士兰大学的Téren Öginish主导开发,以Exmed Pida’iy朗读、Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》音频和文本为基础。该数据集包含了16187条语音记录,每条记录的长度不超过10秒,总时长达到28小时。数据集的构建为维吾尔语语音合成领域的研究提供了宝贵的资源,并对推动该领域的学术发展产生了重要影响。
当前挑战
该数据集在构建过程中面临了多个挑战。首先,维吾尔语语音资源的稀缺性使得数据集的构建尤为困难。其次,在处理和整合文本与语音数据时,需要考虑到维吾尔语三种不同的书写系统(UEY, ULY, USY),这增加了数据处理的复杂性。此外,为了提高数据集的实用性,研究团队采用了与英语LJ Speech Dataset类似的构建方法,并确保了文本的完整性和准确性,这些都是在数据集构建过程中需要克服的挑战。
常用场景
经典使用场景
在深度学习领域,文本转语音(Text To Speech, TTS)技术的研究中,高质量的语音数据集至关重要。UQ Awaz Ambiri数据集旨在填补维吾尔语语音资源的空白,提供了丰富的语音样本,支持研究者进行TTS模型的训练与评估。
衍生相关工作
基于UQ Awaz Ambiri数据集,研究者进一步开发了AwazAmbiriQorali等工具,用于语音与文本的匹配和同步,促进了维吾尔语语音合成技术的进步,并为后续研究提供了宝贵的工具和资源。
数据集最近研究
最新研究方向
在文本到语音(Text To Speech, TTS)领域,UQ Awaz Ambiri数据集的构建旨在填补维吾尔语声音资源的空白。该数据集基于深度学习技术,包含16187个声音样本,总时长28小时,每个声音样本最长10秒。研究前沿主要集中在利用这一声音库进行语音合成和识别,以及促进维吾尔语言文字的数字化保存和传播。其影响不仅体现在语音合成技术的本土化应用,也在于推动多语言环境下语音技术的普及与发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

NSL-KDD

NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本,解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件,以及包含数据集列名的文件。

github 收录