nst_tts_dataset_trimmed

Name: nst_tts_dataset_trimmed
Creator: Nasjonalbiblioteket AI Lab
Published: 2026-05-03 17:23:35
License: 暂无描述

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/NbAiLab/nst_tts_dataset_trimmed

下载链接

链接失效反馈

官方服务：

资源简介：

NST TTS Trimmed 是一个经过边缘修剪的挪威语文本转语音（TTS）数据集，源自 `NbAiLab/nst_tts_dataset`。该数据集包含 `metadata.jsonl` 文件和修剪后的 `.wav` 音频文件，修剪仅针对每个音频片段的开始和结束部分。数据集共修剪了 `5363` 个文件，总计移除静音 `12302.27` 秒，每个片段平均移除 `2.193` 秒，单个片段最多移除 `5.154` 秒。修剪策略包括帧大小为 `20.0 ms`，最小检测语音跨度为 `120.0 ms`，前导语音填充为 `80.0 ms`，后导语音填充为 `120.0 ms`。该版本旨在为 TTS 系统训练提供较少前后静音的音频数据，同时保留内部停顿。

NST TTS Trimmed is a trimmed-edge Norwegian text-to-speech (TTS) dataset derived from `NbAiLab/nst_tts_dataset`. The dataset includes `metadata.jsonl` files and trimmed `.wav` audio files, with trimming applied only to the beginning and end of each audio segment. A total of `5363` files were trimmed, removing `12302.27` seconds of silence in total, with an average of `2.193` seconds removed per segment and a maximum of `5.154` seconds removed from a single segment. The trimming strategy includes a frame size of `20.0 ms`, a minimum detected speech span of `120.0 ms`, a leading speech padding of `80.0 ms`, and a trailing speech padding of `120.0 ms`. This version aims to provide audio data with less leading and trailing silence for TTS system training while retaining internal pauses.

提供机构：

Nasjonalbiblioteket AI Lab

创建时间：

2026-05-03

原始信息汇总

数据集概述：NST TTS Trimmed

数据集名称：NST TTS Trimmed
数据集地址：https://huggingface.co/datasets/NbAiLab/nst_tts_dataset_trimmed
数据集类型：文本到语音（Text-to-Speech）
语言：挪威语（Norwegian）
标签：挪威语、语音、TTS、修剪音频

数据集来源与处理

该数据集来源于 NbAiLab/nst_tts_dataset，经过边缘修剪处理。
剪裁仅应用于每个音频片段的开头和结尾，内部停顿保留不变。

数据集内容

音频声道：channel_1
文件结构：包含 metadata.jsonl 文件及修剪后的 .wav 音频文件

修剪统计

修剪文件数：5363 / 5363（全部文件均被修剪）
总移除静音时长：12302.27 秒
每个片段移除静音的中位数：2.193 秒
单个片段最大移除静音时长：5.154 秒

修剪策略

帧大小：20.0 毫秒
最小检测语音跨度：120.0 毫秒
开头语音填充：80.0 毫秒
结尾语音填充：120.0 毫秒

用途说明

本版本旨在用于训练 TTS 系统，以减少开头和结尾的静音部分，提升音频质量。

搜集汇总

数据集介绍

构建方式

该数据集基于挪威语言技术公司（NST）提供的原始挪威语TTS语料库构建而成，通过对原始音频剪辑的边缘静音进行精准修剪，有效去除了首尾多余的静音片段。修剪过程采用固定帧大小20.0毫秒，最小检测语音片段为120.0毫秒，并在语音起始处保留80.0毫秒的前导填充，末尾保留120.0毫秒的尾随填充，以平衡修剪效果与语音完整性。最终从全部5363个文件中总计移除约12302秒的静音，每段剪辑平均去除约2.2秒，最大单段移除量达5.2秒。

特点

该数据集保留了剪辑内部的自然停顿，仅对边缘静音进行精细化处理，从而在减少训练数据冗余的同时确保语音流畅性。所有音频源自单一通道channel_1，并配有结构化元数据文件metadata.jsonl，便于检索与使用。修剪后的音频在保持原始语料语义完整性的基础上，显著缩短了无效静音长度，使其更适合高效训练文本转语音模型，尤其适用于对音频质量和时长敏感的轻量级TTS系统。

使用方法

用户可直接加载修剪后的.wav音频文件及对应的metadata.jsonl元数据，用于训练或微调挪威语文本转语音模型。由于音频已优化去除了首尾静音，使用时无需额外预处理即可送入基于编码器-解码器或流式架构的TTS系统（如Tacotron、FastSpeech、VITS等）。建议在训练前按标准流程对文本进行规范化处理，并根据模型需求配置采样率与音频长度匹配策略，从而充分发挥该数据集精简高效的特性。

背景与挑战

背景概述

NST TTS Trimmed数据集来源于挪威语言技术领域的权威机构——挪威国家图书馆（National Library of Norway）与AI实验室（NbAiLab）的联合研究成果，其原始语料库NST TTS Dataset是北欧语种语音合成研究的重要基础资源。该数据集于近年内创建，核心研究问题聚焦于提高挪威语文本到语音（TTS）合成系统的自然度与实用性，通过去除音频片段首尾的静音段来优化训练数据质量。其精心设计的修剪策略——如保留内部停顿仅去除边缘静音——为低资源语言（如挪威语）的TTS研究提供了清洁、高效的训练素材，对推动斯堪的纳维亚语系语音交互技术的发展具有重要意义。

当前挑战

该数据集所解决的领域问题在于：原始语音语料中大量无信息静音段会显著降低TTS模型对音素边界和韵律特征的捕捉能力，导致合成语音机械感强、节奏失真。传统人工修剪成本高昂且难以规模化，因此需设计自动化算法在保留语音自然停顿的同时精准切除冗余静音。构建过程中面临的挑战包括：在仅有20毫秒帧级分辨率下，需在120毫秒的最小语音检测跨度与80/120毫秒的前后填充保护带间取得平衡，避免过切破坏尾音共振峰特征；同时需处理5363个文件平均2.193秒的静音差异（最大达5.154秒），确保不同录音环境下的裁剪一致性，最终在保持内部语流完整性的前提下实现边缘噪声的彻底清除。

常用场景

经典使用场景

在文本到语音（TTS）研究领域，NST TTS Trimmed数据集以其经过边缘静音裁剪的高质量挪威语音频而著称。该数据集源自更广泛的NST TTS语料库，经过精心修剪以去除首尾冗余静音段，保留内部自然停顿。其经典应用在于为北欧语言TTS系统提供干净、对齐良好的训练材料，尤其适用于端到端神经TTS模型（如Tacotron、FastSpeech）的预训练与微调，显著提升合成语音的流畅度和自然度。

衍生相关工作

该数据集衍生了一系列经典工作，包括基于其修剪方法的端到端TTS流水线优化研究，以及针对静音检测的精细化策略探索。研究者利用该数据集改进声码器（如WaveGlow、HiFi-GAN）在挪威语上的训练效率，并衍生出多说话人情感TTS的子集。同时，它促进了对比学习在低资源语音增强中的应用，例如VITS模型的微调工作，以及为跨语种TTS提供基线评估的文本与语音对齐基准，成为北欧语音社区的核心资源之一。

数据集最近研究