RUSLAN

Name: RUSLAN
Creator: 计算数学与信息科技研究所，喀山联邦大学
Published: 2019-06-26 19:06:05
License: 暂无描述

arXiv2019-06-26 更新2024-06-21 收录

下载链接：

https://ruslan-corpus.github.io

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

RUSLAN是一个专为俄语文本到语音合成任务设计的大型开放语言数据集，由计算数学与信息科技研究所，喀山联邦大学创建。该数据集包含22200个音频样本，总时长超过31小时，是目前单一说话人俄语数据集中时长最长的。数据内容主要来源于俄罗斯和美国作家Sergei Dovlatov的作品，每个样本包含1至111个单词，平均12个单词。数据集的创建过程包括文本预处理和高质量音频录制，确保了数据的质量和可用性。RUSLAN数据集主要应用于俄语语音合成技术的研究与开发，旨在提高合成语音的自然度和可理解性。

RUSLAN is a large-scale open language dataset specifically designed for Russian text-to-speech (TTS) tasks, developed by the Institute of Computational Mathematics and Information Technology, Kazan Federal University. This dataset contains 22,200 audio samples with a total duration of over 31 hours, making it the longest-duration single-speaker Russian dataset currently available. The dataset content is mainly derived from the works of Sergei Dovlatov, a Russian-American writer. Each sample contains 1 to 111 words, with an average of 12 words per sample. The dataset construction process includes text preprocessing and high-quality audio recording, ensuring the data's quality and usability. The RUSLAN dataset is primarily used for the research and development of Russian speech synthesis technologies, with the goal of improving the naturalness and intelligibility of synthesized speech.

提供机构：

计算数学与信息科技研究所，喀山联邦大学

创建时间：

2019-06-26

搜集汇总

数据集介绍

构建方式

RUSLAN数据集的构建以收集高质量的俄语语音录音为目标，主要包含一位23岁男性母语者的22200个文本-音频对，总时长超过31小时。录音在安静无噪音的房间内进行，采样频率为44.1kHz，16位线性PCM格式，并保存为WAV格式。每个样本都是一段俄语或美国作家谢尔盖·多夫拉托夫作品的摘录，文本长度从1个词到111个词不等，平均长度为12个词。数据集在构建过程中进行了文本预处理，包括将数字和日期替换为其文本表示形式，将缩写词替换为其完整形式，并删除了所有非俄文字符和标点符号以外的符号。最后，所有文本-音频对都经过了验证，以确保没有标注错误。

特点

RUSLAN数据集是迄今为止最大的俄语单说话人语音语料库，提供了超过31小时的录音时长，比目前第二大俄语单说话人语料库多出50%。数据集包含22200个文本-音频对，每个样本都经过精心标注，文本内容来自俄罗斯和美国作家谢尔盖·多夫拉托夫的作品。数据集的录音质量高，语音清晰易懂，文本风格叙述性强，语调中性。此外，数据集还提供了详细的语料库统计信息，包括总时长、样本总数、字符总数、单词总数、唯一单词数量、样本时长范围、样本字符数量范围、样本单词数量范围等。

使用方法

RUSLAN数据集可用于训练端到端文本到语音合成神经网络的模型。使用时，可以将数据集中的文本作为输入，对应的音频作为目标变量，包括MFCC和线性频谱系数。模型训练可以使用Adam优化器，学习率衰减策略，以及层归一化LSTM网络等改进技术。训练完成后，可以使用数据集评估合成语音的自然度和可懂度，通过主观测试和客观测试相结合的方式进行。主观测试使用平均意见得分（MOS）方法，由50位母语者对合成语音的自然度和可懂度进行评分，评分范围为1到5分。客观测试可以使用相同的MOS方法，但通过自动化评分系统进行。

背景与挑战

背景概述

RUSLAN数据集，即RUSSIAN SPOKEN LANGUAGE CORPUS FOR SPEECH SYNTHESIS，是一个为俄语文本到语音任务而创建的开源俄语语音语料库。由Gabdrakhmanov、Garaev和Razinkov等人在2019年发布，该数据集包含了22200个带文本标注的音频样本，超过31小时的高质量语音，是目前为止最大的俄语单语者语音语料库。RUSLAN的创建旨在促进俄语语音合成的研究，为相关领域的研究人员提供高质量的训练数据。该数据集的发布对俄语语音合成技术的研究与发展产生了重要影响。

当前挑战

RUSLAN数据集在解决俄语语音合成领域问题的同时也面临一些挑战。首先，俄语作为一种广泛使用的语言，公开可用的带标注语音语料库却相对不足，这限制了语音合成技术的进一步发展。其次，构建大规模高质量的语音语料库需要耗费大量时间和精力，包括文本预处理、录音过程、音频样本验证等环节。此外，尽管RUSLAN数据集已经包含了大量的语音样本，但在实际应用中可能还需要进一步扩充和优化，以适应不断变化的语音合成技术需求。

常用场景

经典使用场景

RUSLAN数据集作为俄罗斯语语音合成领域的重要资源，被广泛用于训练和评估端到端语音合成系统。其包含的22200个文本-音频对，以及超过31小时的高质量语音数据，使得RUSLAN成为迄今为止最大的俄罗斯语单语音合成数据集。数据集的经典使用场景包括：使用深度学习技术训练语音合成模型，通过端到端的方式直接从文本生成语音。这种使用方式避免了传统语音合成方法中繁琐的语音标注过程，同时能够生成更自然、更清晰的语音。

实际应用

RUSLAN数据集的实际应用场景主要包括：语音合成系统、语音助手、语音识别系统等。在语音合成系统中，RUSLAN数据集可用于训练语音合成模型，生成自然流畅的语音。在语音助手中，RUSLAN数据集可用于构建语音交互界面，提高用户体验。在语音识别系统中，RUSLAN数据集可用于训练语音识别模型，提高语音识别的准确率。RUSLAN数据集的发布，为语音合成领域的实际应用提供了强有力的数据支持。

衍生相关工作

RUSLAN数据集的发布，为俄罗斯语语音合成领域的研究提供了重要的数据资源。基于RUSLAN数据集，研究者们开发了一系列的语音合成模型，并在语音合成、语音识别、语音交互等领域取得了显著的成果。此外，RUSLAN数据集也为其他语言的语音合成研究提供了参考，推动了语音合成领域的整体进步。未来，随着语音合成技术的不断发展，RUSLAN数据集将继续发挥重要作用，为语音合成领域的研究和应用提供支持。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集