five

Swedish Speech Corpus

收藏
arXiv2025-05-23 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.17538v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是瑞典国家图书馆的KBLab团队与瑞典议会管理、瑞典电视台以及瑞典语言和民间传说研究所合作构建的。数据集包含约56514小时的瑞典语语音数据,涵盖了各种瑞典语的变体,包括方言、社会方言、不同年龄组和口音。数据集来源于多个渠道,如瑞典媒体数据库、瑞典电视台、YouTube、瑞典议会的录音以及方言录音。数据经过预处理,包括音频格式转换、语言检测、转录和筛选,以确保高质量的训练数据。该数据集旨在提升瑞典语音识别系统的性能,使其在低资源语言环境下也能保持竞争力。

This dataset was constructed by the KBLab team at the National Library of Sweden in collaboration with the Swedish Parliament Administration, Sveriges Television, and the Institute for Language and Folklore of Sweden. It contains approximately 56,514 hours of Swedish speech data, covering various Swedish language varieties including regional dialects, sociolects, speech from different age groups and diverse accents. The dataset is sourced from multiple channels, such as the Swedish Media Database, Sveriges Television, YouTube, recordings from the Swedish Parliament, and dialect recordings. The data has undergone preprocessing procedures including audio format conversion, language detection, transcription and filtering to ensure high-quality training data. This dataset aims to enhance the performance of Swedish speech recognition systems, enabling them to remain competitive even in low-resource language environments.
提供机构:
瑞典国家图书馆
创建时间:
2025-05-23
搜集汇总
数据集介绍
main_image_url
构建方式
Swedish Speech Corpus的构建采用了多源数据整合与严格的质量控制流程。研究团队从瑞典国家图书馆、议会录音、电视台字幕及方言录音等渠道收集了超过50,000小时的瑞典语音频数据。通过创新的两阶段筛选机制,首先基于Whisper-large-v3和VOXREX的转录质量进行初级过滤(Stage 1),再通过BLEU、ROUGE-N等指标进行精确筛选(Stage 2),最终形成包含56,514小时初级数据和8,533小时高质量数据的语料库。数据预处理中特别加入无语音片段和时间戳标记,以优化模型抗干扰能力。
特点
该数据集以其规模性和多样性著称,覆盖了瑞典主流媒体、议会辩论、方言及非母语者语音等全场景语料。其独特价值体现在三方面:一是包含23,500小时经过严格对齐的议会录音RIXVOX-V2,时间跨度达半个世纪;二是整合了专业录制的方言数据库SweDia,弥补了低资源方言的空白;三是通过混合字幕文本风格(精简电视字幕与逐字YouTube字幕),增强了模型对多样化文本风格的适应性。数据标注采用双重验证机制,同时保留原始文本与机器转录文本的对比信息。
使用方法
该数据集专为优化瑞典语语音识别模型设计,支持Whisper架构全系列模型的微调。使用时分阶段加载策略:先用Stage 1数据训练150,000步以扩大模型对语音变体的覆盖,再用Stage 2数据精细调整50,000步提升准确率。实践建议采用论文中的超参数设置,如tiny模型使用6×10⁻⁴学习率,并配合50%比例的时间戳样本和上下文提示训练。评估时推荐采用FLEURS、Common Voice和NST作为跨领域测试集,注意区分其训练集与保留测试集的划分。
背景与挑战
背景概述
Swedish Speech Corpus是由瑞典国家图书馆KBLab团队于2025年提出的一个大规模瑞典语语音识别数据集。该数据集旨在解决中等资源语言在语音识别领域代表性不足的问题,通过整合议会录音、电视字幕、方言记录等多种来源,构建了包含超过5万小时的标注语音数据。研究团队基于Whisper模型架构进行微调,在FLEURS、Common Voice等基准测试中实现了47%的词错误率降低,显著提升了瑞典语语音识别的性能。该数据集的建立为北欧语言技术发展提供了重要基础设施,体现了文化遗产机构在数字人文领域的独特价值。
当前挑战
构建瑞典语语音数据集面临双重挑战:领域层面需克服中等资源语言数据稀疏性问题,传统多语言模型对瑞典方言、非母语口音等语言变体识别效果欠佳;技术层面涉及海量异构数据处理,包括电视字幕的非逐字转录特性、议会录音与协议文本的对齐难题,以及方言数据采集的固有难度。研究团队设计了包含音频语言检测、多模型转录比对、双重质量过滤的复杂预处理流程,特别针对Whisper模型的幻觉问题专门添加了静音样本训练策略。
常用场景
经典使用场景
Swedish Speech Corpus作为目前瑞典语规模最大、变体最丰富的语音数据集,其最经典的应用场景在于为瑞典语自动语音识别(ASR)系统的开发与优化提供数据支撑。该数据集通过整合电视台字幕、议会辩论录音、方言研究资料等多源异构数据,构建了覆盖不同地域、年龄层和社会背景的语音样本库,特别适合用于训练具有方言适应能力的语音转写模型。在Whisper架构的微调实验中,该数据集使得瑞典语识别错误率相比原始多语言模型降低达47%,显著提升了中低资源语言的ASR性能。
实际应用
在实际应用层面,该数据集支撑的语音技术已广泛应用于瑞典公共服务的数字化转型。基于该数据集训练的模型被部署于议会会议自动记录系统,实现辩论内容实时转写;在广播电视领域用于生成高准确率的隐藏式字幕,提升听障人士的媒体可及性;此外在客服语音交互、教育语音测评等场景也展现出优越性能。特别值得注意的是,其对历史录音的转写能力为瑞典国家图书馆的语音文化遗产数字化提供了关键技术手段。
衍生相关工作
该数据集已衍生出多个重要研究方向:在模型架构方面催生了针对瑞典语的Whisper变体家族(tiny至large-v3);其数据构建方法论被拓展至挪威语等北欧语言研究,形成《Whispering in Norwegian》等对比研究;在语音技术评估领域,基于该数据集构建的RIXVOX-V2子集已成为瑞典语ASR的基准测试平台;此外其创新的方言增强策略启发了《Hearing Voices at the National Library》等语音多样性保护研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作