five

ruslan-stressed

收藏
Hugging Face2026-05-11 更新2026-05-15 收录
下载链接:
https://huggingface.co/datasets/stilletto/ruslan-stressed
下载链接
链接失效反馈
官方服务:
资源简介:
RUSLAN with Word Stress Marks(带词重音标记的RUSLAN)是一个基于RUSLAN俄语单说话人语音合成(TTS)语料库的增强版本数据集。其核心特点是在原始RUSLAN语料库的转录文本中,为所有多音节俄语单词以及单音节词(包括代词和介词)添加了明确的词重音标记。该数据集的创建旨在解决训练俄语TTS模型时的一个关键难题:标准俄语正字法不编码词汇重音,导致模型难以从原始文本中学习正确的重音位置,尤其是对于同形异义词(例如‘за́мок’(城堡)与‘замо́к’(锁))。通过提供带有重音标注的文本,该数据集消除了此类歧义,预期能显著提升合成语音的韵律自然度。数据集包含22,200个语音-文本对,总计约31小时的俄语语音。音频部分与原始RUSLAN语料库完全一致,为22 kHz采样率的单声道WAV文件。文本部分则是在原始转录基础上,使用组合锐音符(U+0301)在重读元音后标注了重音(例如‘тре́вожным’)。字母‘ё’因其固有重音属性而不额外标注。数据以WebDataset格式组织,音频和文本文件分别打包成三个tar分片存储,并附带一个以管道符分隔的metadata.csv文件,便于仅使用文本数据的用户。该数据集专为训练或微调需要俄语精确重音信息的TTS模型(如Kokoro、Tacotron、VITS、StyleTTS、XTTS等)而设计。其数据来源于CC BY 4.0许可的RUSLAN语料库,重音标注由Anthropic Claude Opus模型自动完成,并经过了自动验证流程,但标注中可能仍存在极少量的同形异义词错误。

RUSLAN with Word Stress Marks is an enhanced version of the RUSLAN Russian single-speaker text-to-speech (TTS) corpus. Its core feature is the addition of explicit word stress marks to the transcriptions of the original RUSLAN corpus, covering all polysyllabic Russian words as well as monosyllabic words (including pronouns and prepositions). The dataset is designed to address a key challenge in training Russian TTS models: standard Russian orthography does not encode lexical stress, making it difficult for models to learn correct stress positions from raw text, especially for homographs (e.g., за́мок (castle) vs. замо́к (lock)). By providing text with stress annotations, this dataset eliminates such ambiguities and is expected to significantly improve the prosodic naturalness of synthesized speech. The dataset contains 22,200 speech-text pairs, totaling approximately 31 hours of Russian speech. The audio portion is identical to the original RUSLAN corpus, consisting of mono WAV files at a 22 kHz sampling rate. The text portion is based on the original transcriptions, with stress marked using the combining acute accent (U+0301) after stressed vowels (e.g., тре́вожным). The letter ё is not additionally marked due to its inherent stress properties. The data is organized in WebDataset format, with audio and text files packaged into three tar shards, accompanied by a pipe-separated metadata.csv file for users who only need text data. This dataset is specifically designed for training or fine-tuning TTS models that require precise Russian stress information (e.g., Kokoro, Tacotron, VITS, StyleTTS, XTTS). The data is sourced from the RUSLAN corpus under the CC BY 4.0 license, with stress annotations automatically generated by the Anthropic Claude Opus model and subjected to an automated validation process, though minimal homograph errors may still be present in the annotations.
创建时间:
2026-05-03
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集构建于俄罗斯语单说话人TTS语料库RUSLAN之上,由Anthropic Claude Opus模型通过Claude Code CLI对原始转录文本中所有多音节俄语词汇进行重音标记,随后经由自动验证流程(包括元音位置校验与文本完整性检查)以及针对专有名词拼写错误的小范围修正而成。音频部分直接沿用原始RUSLAN语料库中未经修改的录音,以WebDataset规范组织为三个未压缩的tar分片,每个分片内含同名的.wav音频与.txt文本对,同时提供合并后的metadata.csv文件作为纯文本索引。
特点
数据集的核心特点在于为全部多音节俄语词汇添加了U+0301组合锐音符作为重音标记,置于重读元音之后形成统一字素簇,而本身即带重音的字母ё不进行附加标记,单音节词汇亦予以重音标注,数字、缩写与拉丁字母词组则保持原样。同形异义词的重音由模型根据句义语境进行消歧义判断,从而在源头上消解了原始正字法中重音信息的缺失,对于提升TTS模型在俄语重音尤其是同形异义词方面的发音精度具有显著意义。
使用方法
用户可通过HuggingFace的datasets库直接加载该数据集,调用load_dataset('stilletto/ruslan-stressed', split='train')即能获取包含文件名、重音标注文本及音频字典的样本。对于需要本地使用的场景,可执行循环解压命令将三个tar分片解至统一目录以获取平铺的.wav/.txt配对文件,亦可直接解析metadata.csv并按管道符分隔提取文件名与标注文本,进而将其导入各类TTS训练框架如Kokoro、VITS或StyleTTS中进行重音感知的语音合成模型训练。
背景与挑战
背景概述
在语音合成领域,精准的韵律与发音控制一直是研究热点,尤其对于重音位置多变的俄语等语言而言,词重音的准确标注对提升合成语音的自然度与可理解性至关重要。RUSLAN with Word Stress Marks数据集由Lenar Gabdrakhmanov、Rustem Garaev与Evgenii Razinkov团队在Interspeech 2019发布的RUSLAN语料库基础上发展而来,于2024年经Anthropic Claude Opus模型自动标注并经多层验证后公开。其核心研究问题在于解决文本到语音模型中因原始正字法缺乏重音编码而导致的词汇重音错误,特别是针对俄语中大量存在的同形异义词(如за́мок与замо́к)。该数据集通过为全部多音节词添加Unicode组合重音符,为Kokoro、Tacotron、VITS等主流TTS模型提供了高质量的重音标注训练资源,显著推动了俄语语音合成的韵律准确性研究,成为该领域重要的基础性数据资产。
当前挑战
该数据集所解决的领域挑战聚焦于俄语TTS中因重音位置歧义引发的发音与韵律失真问题。在标准俄语文本中,重音仅凭上下文隐含,模型难以从原始拼写中自主习得正确重音,尤其当同形异义词出现时,极易产生语义混淆及不自然的重音落点。此外,构建过程中亦面临多重挑战:首先,依赖大语言模型自动标注存在误差风险,尽管通过了99.9%以上的自动验证(包括元音位置校验与文本完整性检查),但同形异义词的语境消歧仍可能出现偶发失误;其次,原始RUSLAN音频未进行额外清理或重分割,意味着背景噪声、录音质量差异等底层音频缺陷未经干预,可能影响模型训练的纯度;最后,数据规模达22,200条语句(约31小时语音),在有限算力与免费平台上传限制下,需采用tar分片打包策略以规避单文件提交速率限制,增加了数据分发与管理的复杂度。
常用场景
经典使用场景
在语音合成与自然语言处理交叉领域中,ruslan-stressed数据集作为俄语单说话人语音合成语料库RUSLAN的增强版本,其核心价值在于为每一句转录文本中的多音节俄语单词标注了重音位置。该数据集最经典的应用场景是训练端到端文本到语音合成模型,例如Tacotron、VITS、StyleTTS或XTTS等架构,使其能够学习到词汇层面的重音模式,从而在合成语音中准确体现俄语特有的词汇重音。尤其针对同形异义词(如за́мок与замо́к),通过携带重音标记的训练数据,模型能够从根本上消除拼写相同但重音不同导致的发音歧义,极大提升了合成语音的自然度和可理解性。
解决学术问题
该数据集精准回应了俄语语音合成领域中一个长期存在的学术挑战:如何让基于原始正字法训练的深度神经网络模型自主习得词汇重音位置。俄语正字法不编码重音信息,而同一拼写形式在不同语境下可能对应不同发音,这给仅依赖字符序列的TTS模型带来了极大的学习负担。通过提供大规模、高质量的手动风格重音标注,ruslan-stressed数据集将重音明确编码为训练信号,有效解耦了文本到声学映射中的歧义来源。这一资源为研究俄语韵律建模、重音预测以及跨语言迁移学习提供了标准化的基准数据,推动了俄语语音合成领域从纯数据驱动向知识注入方向的范式演进。
衍生相关工作
该数据集的诞生直接催生了一系列关于重音预测与韵律建模的后续研究。一方面,研究者利用其标注信息训练独立的词汇重音预测器,实现从不带重音的原始文本到重音标注文本的自动转换,从而将重音知识泛化到任意俄语文本。另一方面,在声学模型训练中,该数据集被用作对照基线,评估显式重音特征输入相较于隐式重音建模策略的效果差异。此外,基于该数据集的迁移学习工作将重音标注思路拓展至其他缺乏重音编码的斯拉夫语言,探讨论多语言重音共享模型的可行性。这些工作的共同支点在于证明了语义无关的词汇重音标注能够有效缓解同形异义词带来的合成歧义,为低资源语言的高质量TTS系统开发提供了可复现的技术路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作