nb-librivox
收藏Hugging Face2025-06-17 更新2025-06-19 收录
下载链接:
https://huggingface.co/datasets/NbAiLab/nb-librivox
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由挪威国家图书馆制作的高质量挪威语文本到语音(TTS)数据集,包含了从LibriVox公共领域有声书衍生的音频片段和伪对齐的转录文本及标点符号。适用于语音合成和自动语音识别研究。
提供机构:
Nasjonalbiblioteket AI Lab
创建时间:
2025-06-17
搜集汇总
数据集介绍

构建方式
NB-LibriVox数据集基于LibriVox公有领域的有声读物构建,由挪威国家图书馆精心策划。通过NB-Whisper Large和nb-wav2vec2模型自动生成文本转录,并利用Qwen3 235B模型自动添加标点符号。音频片段经过伪对齐处理,确保每段语音不超过30秒,且包含完整的句子。数据集涵盖了多种说话人背景,包括母语和非母语使用者,确保了数据的多样性和代表性。
使用方法
NB-LibriVox数据集适用于文本到语音(TTS)和自动语音识别(ASR)任务。研究者可直接下载音频文件及对应的文本转录,用于模型训练或评估。数据集采用CC0许可,允许任何目的的使用,包括商业应用。在使用时,建议注明数据来源及转录方法,以确保研究的透明性。对于生成式应用(如语音助手),需注意避免误导性使用说话人声音。
背景与挑战
背景概述
NB-LibriVox数据集是由挪威国家图书馆精心构建的高质量挪威语文本转语音(TTS)数据集,基于LibriVox公有领域有声读物资源。该数据集旨在推动挪威语(Bokmål)语音合成与自动语音识别(ASR)领域的研究,通过整合音频片段与伪对齐文本及标点符号,为相关研究提供了宝贵的数据支持。数据集采用先进的自动语音识别模型NB-Whisper Large和nb-wav2vec2生成文本,并利用Qwen3模型自动添加标点符号,确保了数据的准确性和可用性。挪威国家图书馆作为主要构建机构,致力于通过开放数据促进语言技术的多样化发展。
当前挑战
NB-LibriVox数据集面临的挑战主要体现在两个方面:领域问题与构建过程。在领域问题方面,挪威语作为低资源语言,其语音数据的稀缺性限制了模型训练的多样性与泛化能力,尤其在处理不同口音和方言时表现尤为突出。构建过程中,伪对齐技术的使用虽提升了效率,但缺乏强制对齐可能导致文本与音频的精确匹配不足;此外,数据集的样本数量相对有限(4907个样本,总时长9小时),且部分说话人样本分布不均,可能影响模型的鲁棒性。标点符号的自动添加虽提升了文本可读性,但依赖单一模型可能引入系统性误差。
常用场景
经典使用场景
在语音合成技术的研究中,NB-LibriVox数据集作为挪威语(Bokmål)的高质量语音数据集,广泛应用于文本到语音(TTS)系统的训练与评估。其包含的伪对齐转录和标点信息为语音合成模型提供了丰富的语言特征,使得研究人员能够构建更加自然流畅的挪威语语音合成系统。数据集中的多说话人录音也为多说话人语音合成研究提供了重要资源。
解决学术问题
NB-LibriVox数据集解决了挪威语语音合成和自动语音识别(ASR)研究中的数据稀缺问题。通过提供高质量的语音和文本对齐数据,该数据集支持了挪威语语音模型的训练,提升了模型在复杂语言环境下的表现。此外,数据集中的说话人多样性为研究说话人自适应和语音风格转换提供了实验基础,推动了多语言语音处理技术的发展。
实际应用
在实际应用中,NB-LibriVox数据集被用于开发挪威语的语音助手、有声读物和语音翻译工具。其高质量的语音数据使得生成的语音更加自然,适用于教育、娱乐和公共服务等领域。例如,挪威的公共图书馆可以利用该数据集开发有声读物服务,帮助视障人士获取信息。
数据集最近研究
最新研究方向
随着多模态人工智能技术的快速发展,挪威语文本转语音(TTS)和自动语音识别(ASR)领域对高质量数据集的需求日益增长。NB-LibriVox数据集作为挪威国家图书馆精心策划的开放资源,近期在低资源语言语音合成研究中展现出独特价值。研究者们正探索如何利用其伪对齐转录文本和标点补充特征,结合NB-Whisper Large等本土化模型,提升挪威语语音合成的自然度和韵律准确性。该数据集在跨语言语音迁移学习中也受到关注,特别是在处理挪威语特有的音系特征时,为构建更鲁棒的多语言语音系统提供了重要基准。近期研究还聚焦于如何通过该数据集的说话人元数据,开发更具表现力的个性化语音合成模型,同时遵循其标注的伦理使用准则。
以上内容由遇见数据集搜集并总结生成



