Nord-Parl-TTS

Name: Nord-Parl-TTS
Creator: Department of Information and Communications Engineering, Aalto University, Espoo, Finland; Speech, Music & Hearing, KTH Royal Institute of Technology, Stockholm, Sweden; School of Data Science, The Chinese University of Hong Kong, Shenzhen, China
Published: 2025-09-23 00:30:26
License: 暂无描述

arXiv2025-09-23 更新2025-09-24 收录

下载链接：

https://www.openslr.org/index.html

下载链接

链接失效反馈

官方服务：

资源简介：

Nord-Parl-TTS是一个开源的文本到语音（TTS）数据集，包含芬兰语和瑞典语的议会演讲录音。该数据集基于Emilia数据处理流程的改进版本，从北欧议会的录音中提取了900小时的芬兰语和5090小时的瑞典语语音数据，适合用于TTS训练。数据集还包括统一的评估集，以支持模型开发和基准测试。Nord-Parl-TTS为芬兰语和瑞典语提供了大规模的开放数据，缩小了高资源语言和低资源语言在TTS领域的资源差距。

Nord-Parl-TTS is an open-source text-to-speech (TTS) dataset containing parliamentary speech recordings in Finnish and Swedish. Built upon an improved version of the Emilia data processing pipeline, this dataset extracts 900 hours of Finnish speech data and 5090 hours of Swedish speech data from Nordic parliamentary recordings, which is suitable for TTS model training. It also includes a unified evaluation set to support model development and benchmarking. Nord-Parl-TTS provides large-scale open data for Finnish and Swedish, narrowing the resource gap between high-resource and low-resource languages in the TTS domain.

提供机构：

Department of Information and Communications Engineering, Aalto University, Espoo, Finland; Speech, Music & Hearing, KTH Royal Institute of Technology, Stockholm, Sweden; School of Data Science, The Chinese University of Hong Kong, Shenzhen, China

创建时间：

2025-09-23

搜集汇总

数据集介绍

构建方式

Nord-Parl-TTS数据集的构建基于对北欧议会会议录音的系统性处理，采用改进的Emilia数据处理流程。针对芬兰语部分，从视频中提取音频并标准化为24kHz单声道格式，通过预训练的UVR-MDX-Net模型进行降噪处理，结合Pyannote说话人日志化和Silero VAD技术实现精细语音活动检测。转录阶段采用Whisper与Wav2Vec2-large双模型校验机制，仅保留词错误率低于5%的高质量片段，最终通过DNSMOS评分过滤语音质量低于3.0的样本。瑞典语处理则利用RixVox-v2现有句子级时间戳进行分段，通过说话人日志化排除多说话人片段，并采用瑞典语Whisper-large模型进行转录校验，形成规模达5090小时的语音数据集。

特点

该数据集显著特点体现在其大规模真实场景语音覆盖，芬兰语部分达900小时，瑞典语部分突破5090小时，远超现有工作室录制数据规模。语音素材源自议会辩论场景，天然包含丰富的韵律变化和自然停顿，为TTS模型学习真实口语韵律提供理想素材。数据集严格遵循统一的质量控制标准，所有语音样本均通过DNSMOS客观质量评估，确保音频清晰度与信噪比的一致性。特别设计的平衡评估集包含500个提示-目标对，兼顾性别平衡与语句长度分布，为模型性能评估提供标准化基准。数据格式采用24kHz采样率单声道WAV文件，配套文本经过标点符号和大小写规范化处理，可直接用于端到端TTS模型训练。

使用方法

该数据集专为文本转语音系统训练优化，支持非自回归扩散模型如Matcha-TTS和F5-TTS的直接训练。使用时需先将芬兰语文本直接转换为字符序列，瑞典语文本则需通过Phonemizer进行音素转换。训练过程中可结合预训练说话人编码器提取说话人特征，在推理阶段通过分类器引导技术增强生成语音的自然度。评估阶段建议采用统一测试集，通过字符错误率衡量语音清晰度，使用余弦说话人相似度评估音色保持能力。主观评估可采用对比平均意见分和说话人平均意见分标准，由以目标语言为母语的评估者进行人工评分。数据集配套提供数据可视化工具和筛选工具，支持研究人员快速进行质量检查和样本筛选。

背景与挑战

背景概述

随着语音合成技术的快速发展，高质量数据集的稀缺性成为制约低资源语言研究的关键瓶颈。Nord-Parl-TTS数据集于2025年由阿尔托大学、KTH皇家理工学院等机构联合发布，旨在通过挖掘北欧议会录音构建芬兰语和瑞典语的大规模语音合成资源。该数据集包含900小时芬兰语和5090小时瑞典语语音，突破了传统依赖录音棚数据的局限，为低资源语言的语音生成模型训练提供了重要基础设施。其创新性在于将非受限环境下的议会演讲转化为标准化语音数据，显著提升了芬兰语和瑞典语在语音合成领域的资源可及性。

当前挑战

在语音合成领域，低资源语言面临训练数据匮乏导致的合成语音自然度不足问题。Nord-Parl-TTS需解决议会录音中存在的自发语言修正、多说话人重叠等挑战。数据构建过程中，团队需应对音频与文本对齐的复杂性，如芬兰语议会转录本经过书面化编辑导致发音学习偏差，瑞典语数据需通过双重ASR模型校验确保转录准确率。此外，语音分离、说话人日志化等技术需适配多语言环境，而评估集的构建还需克服母语标注者稀缺等实际困难。

常用场景

经典使用场景

在低资源语言语音合成研究领域，Nord-Parl-TTS数据集通过议会录音构建了大规模真实场景语音库，为芬兰语和瑞典语的TTS模型训练提供了关键支持。该数据集最经典的应用场景在于训练非自回归扩散模型，如Matcha-TTS和F5-TTS，通过显式对齐与隐式对齐策略的对比实验，验证了其在提升合成语音清晰度与说话人相似度方面的有效性。其包含的900小时芬兰语和5090小时瑞典语数据，有效解决了传统工作室录音数据量不足的瓶颈，为低资源语言语音合成技术提供了标准化训练范本。

衍生相关工作

该数据集的发布催生了一系列低资源语言语音合成的创新研究。基于其数据处理框架，后续工作扩展至丹麦语、挪威语等北欧语言的数据构建。在模型层面，Matcha-TTS的显式对齐方法与F5-TTS的隐式对齐机制在数据集上的对比实验，推动了扩散模型在TTS领域的架构优化。此外，数据集启发了对语音质量客观评估指标（如CER、SIM）的重新审视，促进了Wav2Vec2、Whisper等预训练模型在低资源语言适配方面的改进研究。

数据集最近研究