witchspeech

Hugging Face2025-03-09 更新2025-03-10 收录

下载链接：

https://huggingface.co/datasets/korovsky/witchspeech

下载链接

链接失效反馈

官方服务：

资源简介：

WitchSpeech是一个针对文本到语音（TTS）任务的俄语语音行数据集，包含来自《巫师3：狂猎》游戏的俄语语音行。该数据集是原始数据集的重新打包版本，增加了语音行的转录，包括单词的重音。数据集还包括一个metadata_source.csv文件，包含语音行的原始文本。此外，数据集中还有非语言声音标签，并提供了详细的元数据信息。

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

WitchSpeech数据集的构建基于《巫师3：狂猎》游戏中的俄罗斯语语音样本。首先，从游戏中提取语音文本并与音频样本进行匹配。随后，利用RUAccent库自动为单词添加重音。最后，整合非言语声音标签，构建了包含音频路径、文本、说话者ID的metadata.csv文件，形成了最终的TTS数据集。

特点

本数据集的特点在于，不仅包含了原始语音样本，还提供了与之对应的文本转录，且对单词的重音标注甚至涵盖了单元音词。此外，数据集中包含了34位说话者的语音，总计时长21.49小时，采样率为48 000Hz，且metadata.csv中详细记录了非言语声音标签，为语音合成任务提供了丰富且精细的数据支持。

使用方法

使用该数据集时，研究者可以依据metadata.csv文件中的信息，将音频路径与文本、说话者ID关联，便于进行文本到语音的转换研究。同时，可以利用数据集中的非言语声音标签，对TTS系统中的非言语声音处理进行优化。数据集的构建方式确保了其适用于多种语音合成应用场景。

背景与挑战

背景概述

WitchSpeech数据集，全称为'WitchSpeech: Russian voice lines Witcher 3 TTS dataset'，是一套针对文本到语音合成任务（TTS）而构建的俄语语音数据集。该数据集基于《巫师3：狂猎》游戏中的俄罗斯语语音行，由Rootreck和Den4ikAI等研究人员通过对原始语音数据集的再包装和转录处理而创建于近期。数据集不仅包含了语音样本，还提供了相应的文字转录，其中甚至为单音节词汇标注了重音，这对语音合成系统的准确性和自然度具有重要价值。WitchSpeech数据集以其独特的语音样本和详尽的转录信息，为TTS领域的研究提供了新的资源，对提升多语种TTS系统的性能有着显著影响。

当前挑战

尽管WitchSpeech数据集为TTS领域的研究提供了宝贵的资源，但构建此类数据集仍面临诸多挑战。首先，在提取和匹配游戏中的语音样本与文本时，确保一一对应且无误差是一项复杂的任务。其次，自动添加单词重音的过程需要高度的准确性，对相关工具和算法提出了较高的要求。此外，数据集构建过程中，如何有效标注非语言声音标签，以及如何处理和整合元数据文件，也是确保数据集质量和可用性的关键挑战。

常用场景

经典使用场景

在语音合成领域，WitchSpeech数据集作为一款俄罗斯语语音合成文本到语音（TTS）的数据集，其经典的使用场景主要在于为机器学习模型提供高质量的训练素材。该数据集包含了34位说话者的语音样本，以及相应的文本转录，为TTS模型的构建提供了丰富的声学特征和文本信息。

衍生相关工作

基于WitchSpeech数据集，研究者们已经开展了一系列相关工作，如进一步的数据增强、模型训练以及语音合成系统的优化。这些衍生工作不仅促进了语音合成技术的进步，还为多语言TTS系统的开发提供了新的视角和方法论。

数据集最近研究