five

RUSLAN|语音合成数据集|俄语数据集

收藏
arXiv2019-06-26 更新2024-06-21 收录
语音合成
俄语
下载链接:
https://ruslan-corpus.github.io
下载链接
链接失效反馈
资源简介:
RUSLAN是一个专为俄语文本到语音合成任务设计的大型开放语言数据集,由计算数学与信息科技研究所,喀山联邦大学创建。该数据集包含22200个音频样本,总时长超过31小时,是目前单一说话人俄语数据集中时长最长的。数据内容主要来源于俄罗斯和美国作家Sergei Dovlatov的作品,每个样本包含1至111个单词,平均12个单词。数据集的创建过程包括文本预处理和高质量音频录制,确保了数据的质量和可用性。RUSLAN数据集主要应用于俄语语音合成技术的研究与开发,旨在提高合成语音的自然度和可理解性。
提供机构:
计算数学与信息科技研究所,喀山联邦大学
创建时间:
2019-06-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
RUSLAN数据集的构建以收集高质量的俄语语音录音为目标,主要包含一位23岁男性母语者的22200个文本-音频对,总时长超过31小时。录音在安静无噪音的房间内进行,采样频率为44.1kHz,16位线性PCM格式,并保存为WAV格式。每个样本都是一段俄语或美国作家谢尔盖·多夫拉托夫作品的摘录,文本长度从1个词到111个词不等,平均长度为12个词。数据集在构建过程中进行了文本预处理,包括将数字和日期替换为其文本表示形式,将缩写词替换为其完整形式,并删除了所有非俄文字符和标点符号以外的符号。最后,所有文本-音频对都经过了验证,以确保没有标注错误。
特点
RUSLAN数据集是迄今为止最大的俄语单说话人语音语料库,提供了超过31小时的录音时长,比目前第二大俄语单说话人语料库多出50%。数据集包含22200个文本-音频对,每个样本都经过精心标注,文本内容来自俄罗斯和美国作家谢尔盖·多夫拉托夫的作品。数据集的录音质量高,语音清晰易懂,文本风格叙述性强,语调中性。此外,数据集还提供了详细的语料库统计信息,包括总时长、样本总数、字符总数、单词总数、唯一单词数量、样本时长范围、样本字符数量范围、样本单词数量范围等。
使用方法
RUSLAN数据集可用于训练端到端文本到语音合成神经网络的模型。使用时,可以将数据集中的文本作为输入,对应的音频作为目标变量,包括MFCC和线性频谱系数。模型训练可以使用Adam优化器,学习率衰减策略,以及层归一化LSTM网络等改进技术。训练完成后,可以使用数据集评估合成语音的自然度和可懂度,通过主观测试和客观测试相结合的方式进行。主观测试使用平均意见得分(MOS)方法,由50位母语者对合成语音的自然度和可懂度进行评分,评分范围为1到5分。客观测试可以使用相同的MOS方法,但通过自动化评分系统进行。
背景与挑战
背景概述
RUSLAN数据集,即RUSSIAN SPOKEN LANGUAGE CORPUS FOR SPEECH SYNTHESIS,是一个为俄语文本到语音任务而创建的开源俄语语音语料库。由Gabdrakhmanov、Garaev和Razinkov等人在2019年发布,该数据集包含了22200个带文本标注的音频样本,超过31小时的高质量语音,是目前为止最大的俄语单语者语音语料库。RUSLAN的创建旨在促进俄语语音合成的研究,为相关领域的研究人员提供高质量的训练数据。该数据集的发布对俄语语音合成技术的研究与发展产生了重要影响。
当前挑战
RUSLAN数据集在解决俄语语音合成领域问题的同时也面临一些挑战。首先,俄语作为一种广泛使用的语言,公开可用的带标注语音语料库却相对不足,这限制了语音合成技术的进一步发展。其次,构建大规模高质量的语音语料库需要耗费大量时间和精力,包括文本预处理、录音过程、音频样本验证等环节。此外,尽管RUSLAN数据集已经包含了大量的语音样本,但在实际应用中可能还需要进一步扩充和优化,以适应不断变化的语音合成技术需求。
常用场景
经典使用场景
RUSLAN数据集作为俄罗斯语语音合成领域的重要资源,被广泛用于训练和评估端到端语音合成系统。其包含的22200个文本-音频对,以及超过31小时的高质量语音数据,使得RUSLAN成为迄今为止最大的俄罗斯语单语音合成数据集。数据集的经典使用场景包括:使用深度学习技术训练语音合成模型,通过端到端的方式直接从文本生成语音。这种使用方式避免了传统语音合成方法中繁琐的语音标注过程,同时能够生成更自然、更清晰的语音。
实际应用
RUSLAN数据集的实际应用场景主要包括:语音合成系统、语音助手、语音识别系统等。在语音合成系统中,RUSLAN数据集可用于训练语音合成模型,生成自然流畅的语音。在语音助手中,RUSLAN数据集可用于构建语音交互界面,提高用户体验。在语音识别系统中,RUSLAN数据集可用于训练语音识别模型,提高语音识别的准确率。RUSLAN数据集的发布,为语音合成领域的实际应用提供了强有力的数据支持。
衍生相关工作
RUSLAN数据集的发布,为俄罗斯语语音合成领域的研究提供了重要的数据资源。基于RUSLAN数据集,研究者们开发了一系列的语音合成模型,并在语音合成、语音识别、语音交互等领域取得了显著的成果。此外,RUSLAN数据集也为其他语言的语音合成研究提供了参考,推动了语音合成领域的整体进步。未来,随着语音合成技术的不断发展,RUSLAN数据集将继续发挥重要作用,为语音合成领域的研究和应用提供支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。

DataCite Commons 收录

红外谱图数据库

收集整理红外谱图实验手册等数据,建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中,原始红外谱图都进行了数字化处理,从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图,也可以提交谱图/谱峰数据,以检索与之相似的谱图数据,以协助进行谱图鉴定。

国家基础学科公共科学数据中心 收录