UQ Awaz Ambiri|文本到语音转换数据集|Uyghur语言数据集
收藏UQ Awaz Ambiri 数据集概述
数据集内容
- 数据集名称:UQ Awaz Ambiri
- 数据集目的:用于深度学习技术支持的维吾尔语语音合成(Text To Speech)研究,旨在消除维吾尔语语音中的不清晰问题。
- 数据来源:由Exmed Pida’iy朗读,Merhum Muhemmed Sali Damolla翻译的维吾尔语《古兰经》语音。
- 数据集规模:包含16187个语音文件,每个语音文件最长10秒,总时长约28小时。
数据结构
- 语音文件:以16位PCM WAV格式存储,采样率为22050 Hz。
- 元数据:存储于
metadata.csv
文件中,采用UTF-8编码,每个记录包含四个部分:- 第一部分:语音文件的唯一标识,与
.wav
文件名对应。 - 第二部分:使用维吾尔阿拉伯字母(UEY)的文本。
- 第三部分:使用维吾尔拉丁字母(ULY)的文本。
- 第四部分:使用维吾尔斯拉夫字母(USY)的文本。
- 第一部分:语音文件的唯一标识,与
数据集使用
- 数据集可用于语音与文本的对齐研究,通过程序将《古兰经》的语音部分分割成不超过10秒的片段,并与相应的维吾尔语文本对齐。
- 数据集的文本部分提供了维吾尔阿拉伯字母、维吾尔拉丁字母和维吾尔斯拉夫字母三种形式的文本,方便研究者使用。
数据集下载
- 数据集大小为2.9 GB,以7z格式压缩,可通过以下链接下载:

中国交通事故深度调查(CIDAS)数据集
交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、
北方大数据交易中心 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
NSL-KDD
NSL-KDD数据集是一个用于测试入侵检测算法的网络流量数据集。它是KDD Cup 1999数据集的改进版本,解决了原始数据集中的冗余记录和类别不平衡问题。该数据集包含训练和测试数据文件,以及包含数据集列名的文件。
github 收录