Finnish Parliament ASR corpus

Name: Finnish Parliament ASR corpus
Creator: 阿尔托大学
Published: 2022-03-29 00:29:49
License: 暂无描述

arXiv2022-03-29 更新2024-06-21 收录

下载链接：

http://urn.fi/urn:nbn:fi:lb-2021081105

下载链接

链接失效反馈

官方服务：

资源简介：

Finnish Parliament ASR corpus是由阿尔托大学创建的，目前最大的公开可用芬兰语自动语音识别（ASR）数据集，包含超过3000小时的手动转录语音数据和449位发言者的丰富人口统计元数据。该数据集基于早期的初步工作，自然地分为两个训练子集，分别来自两个不同的时间段，并提供了两个官方的修正测试集，覆盖不同的时间段，设置了具有纵向分布变化特性的ASR任务。此外，还提供了一个官方开发集。数据集的应用领域包括ASR系统的训练和评估，以及解决语音识别中的性别、年龄和教育水平偏差问题。

The Finnish Parliament ASR Corpus, created by Aalto University, is currently the largest publicly available Finnish automatic speech recognition (ASR) dataset. It contains over 3,000 hours of manually transcribed speech data and rich demographic metadata for 449 speakers. Built upon early preliminary work, the corpus is naturally split into two training subsets sourced from two distinct time periods, and provides two official revised test sets covering different timeframes, establishing an ASR task with longitudinal distribution variations. Furthermore, an official development set is provided. The dataset is applied to the training and evaluation of ASR systems, as well as the mitigation of gender, age, and education level biases in speech recognition.

提供机构：

阿尔托大学

创建时间：

2022-03-29

搜集汇总

数据集介绍

构建方式

Finnish Parliament ASR corpus的构建依托于芬兰议会公开的会议视频与XML转录文本。数据采集流程涵盖从视频服务商下载全会录像，利用ffmpeg提取16kHz单声道音频，并通过议会开放API解析XML文件以获取演讲转录文本、发言人姓名、议员ID、语言标签、政党及头衔等元数据。随后，对转录文本进行预处理，包括拉丁字符映射、去除标点、扩展数字与缩写、统一小写，并利用FastText语言识别模型填充缺失的语言标签。基于Kaldi工具包的分割脚本，将长音频与预处理文本对齐，生成适合ASR训练的短片段。分割后，通过时间戳匹配从JSON中恢复发言人信息，仅保留单说话人且语言为芬兰语的片段。最终，结合早期数据集（Train16，2008-2016年）与新处理的数据（Train20，2015-2020年），剔除重叠样本后形成涵盖2008-2020年、总计3087小时、包含449位发言人的综合训练集，并提供两个手动校正的测试集（Test16与Test20）及一个开发集（Dev16）。

特点

该数据集是芬兰语领域规模最大的公开转录语音语料库，总时长超过3000小时，涵盖449位发言人，并附有丰富的元数据，包括性别、年龄、教育背景、政党及方言区域，为分析ASR系统中的偏差提供了独特视角。数据具有天然的时间分割特性，分为Train16与Train20两个子集，对应不同选举周期，从而引入纵向分布漂移特征，可用于评估模型对时间变化的鲁棒性。测试集同样分为两个时期，其中Test20为手动校正的新集合，旨在捕捉数据分布的时间演变。此外，超过85%的样本长度在15秒以内，便于高效训练；语料涵盖正式演讲与即兴辩论，兼具计划性与自发性语音风格。数据集还包含视频流，为未来多模态研究奠定基础。

使用方法

该数据集适用于多种ASR模型训练与评估，论文提供了基于Kaldi的完整HMM-GMM、HMM-DNN（TDNN）及端到端AED（注意力编码器-解码器）的基准配方。研究者可直接使用公开的Github仓库中的预处理流程与模型代码，快速复现基准结果。数据被划分为训练、开发与测试集，支持纵向泛化研究——例如用Train16训练、Test20测试以评估时间漂移影响。此外，丰富的元数据允许按性别、年龄、教育等维度进行偏差分析，或用于说话人识别、语音分类等下游任务。结合Kielipankki提供的通用语言模型与议会专属语言模型，可评估模型在正式、新闻及口语等不同领域的泛化能力。视频数据还可拓展至视听多模态研究。

背景与挑战

背景概述

芬兰议会自动语音识别语料库（Finnish Parliament ASR corpus）由阿尔托大学信号处理与声学系的研究人员Anja Virkkunen、Aku Rouhe、Nhan Phan与Mikko Kurimo于2022年创建，是当前公开可用的最大规模芬兰语人工转写语音数据集，包含超过3000小时的议会会议录音及449位发言人的丰富人口统计元数据。该语料库旨在推动低资源语言芬兰语的语音识别研究，其构建基于早期工作，自然形成两个时间分段的训练子集和两个官方修正测试集，为评估模型在时间分布偏移下的表现提供了独特基准。作为芬兰语语音研究的重要公共资源，该数据集不仅支持隐马尔可夫模型与端到端注意力编码器-解码器模型的对比实验，还通过元数据分析了性别、年龄和教育程度对识别准确率的影响，为多模态与跨领域研究奠定了数据基础。

当前挑战

该数据集面临的挑战体现在两个维度：在领域问题层面，芬兰语的黏着语特性要求使用子词建模以应对庞大词表，议会语音中计划性与即兴发言混杂，且转录文本经过清晰化编辑（如省略犹豫、重复与口语化发音），导致音频与文本之间存在系统性错配；模型在正式语音上表现优异，但对口语化、会话式芬兰语的泛化能力显著不足，词错误率高达60%以上。在构建过程中，议会录音时长从15分钟至18小时不等，需通过Kaldi工具分割为15秒以内的短片段，但分割后约22%的原始音频因静音、未转写或对齐失败而丢失；转录文本的时戳与议程顺序不匹配、多语种混合（芬兰语与瑞典语）以及发言人身份恢复等后处理步骤进一步增加了数据清洗的复杂性，最终仅约73%的原始音频纳入训练集。

常用场景

经典使用场景

Finnish Parliament ASR corpus作为目前最大的公开芬兰语人工转录语音数据集，广泛用于训练和评估自动语音识别（ASR）系统。其经典使用场景包括构建基于隐马尔可夫模型（HMM）的混合深度神经网络（HMM-DNN）系统，以及基于注意力机制的编码器-解码器（AED）模型。研究者利用该数据集的两组时间子集（Train16和Train20）和两个官方测试集（Test16和Test20），探索纵向数据分布偏移下的ASR性能，并开发了完整的Kaldi数据准备流水线，为芬兰语语音识别研究提供了标准化基准。

衍生相关工作

该数据集衍生了多项经典工作。在模型层面，研究者基于此开发了优化的HMM-GMM声学模型流水线，并对比了HMM-DNN与AED架构在等数据设置下的性能，发现HMM-DNN始终优于AED。在分析层面，利用元数据进行的误差与偏差分析成为范本，揭示了ASR系统在性别和年龄上的表现差异。此外，数据集的公开流水线（fi-parliament-tools）和基准模型（如TDNN和AED）被后续工作广泛复用，例如用于芬兰语多模态语音识别研究，以及与其他议会数据集（如冰岛、丹麦议会数据）的跨语言比较。

数据集最近研究