Lahjoita puhetta (Donate Speech) corpus

Name: Lahjoita puhetta (Donate Speech) corpus
Creator: 阿尔托大学信号处理与声学系
Published: 2022-03-24 15:50:25
License: 暂无描述

arXiv2022-03-24 更新2024-06-21 收录

下载链接：

https://github.com/aalto-speech/lahjoita-puhetta-resources

下载链接

链接失效反馈

官方服务：

资源简介：

Lahjoita puhetta（捐赠言语）语料库是一个大规模的芬兰口语数据集，由阿尔托大学信号处理与声学系的研究人员收集。该数据集包含了超过20,000名来自芬兰各地及各年龄段的说话者，总计约3600小时的日常口语芬兰语录音。数据集的主要目标是创建一个代表性的大型资源，用于研究自发的口语芬兰语，并加速语言技术和基于语音的服务的发展。数据集的收集过程和所收集的语料库在本文中进行了介绍，并通过多种用例展示了其多功能性。此外，数据集还提供了用于用例的基准，以及可下载的、开源代码的基线系统，以确保可重复性。数据集的应用领域包括自动语音识别、性别、年龄、方言和主题检测，以及元数据分析等。

The Lahjoita puhetta (Donated Speech) corpus is a large-scale Finnish spontaneous speech dataset collected by researchers from the Department of Signal Processing and Acoustics at Aalto University. It contains over 20,000 speakers from across Finland and all age groups, totaling approximately 3,600 hours of everyday spontaneous Finnish speech recordings. The primary goal of this dataset is to create a representative large-scale resource for research on spontaneous spoken Finnish, and to accelerate the development of language technologies and speech-based services. The corpus collection process and the dataset itself are introduced in this paper, whose versatility is demonstrated through multiple use cases. Additionally, the dataset provides benchmarks for these use cases, as well as downloadable open-source baseline systems to ensure research reproducibility. Its application domains include automatic speech recognition (ASR), gender, age, dialect and topic detection, as well as meta-data analysis, among others.

提供机构：

阿尔托大学信号处理与声学系

创建时间：

2022-03-24

搜集汇总

数据集介绍

构建方式

在口语语料库构建领域，Lahjoita puhetta语料库通过一项大规模的公众捐赠运动，成功收集了约3600小时的芬兰日常口语数据。该运动与芬兰广播公司合作，设计了涵盖动物、体育、自然等十个主题的录音界面，通过视频、图片或文本提示激发参与者自由表达。录音过程通过网页或手机应用进行，参与者需提供方言背景、性别、年龄等元数据，确保了数据的多样性和代表性。数据收集遵循欧盟通用数据保护条例，通过合法性利益评估和隐私影响评估保障合规性，最终由芬兰语言银行负责共享与管理。

使用方法

该数据集适用于多个语音技术研究领域，包括自发语音的自动语音识别、以及基于元数据的年龄、性别、方言和主题分类任务。研究人员可利用其大规模转录数据训练混合HMM/DNN或端到端ASR模型，并通过未转录部分进行半监督或自监督学习。数据集的元数据可用于构建说话人属性分类器，以验证或补全缺失信息，并分析模型在不同群体中的性能偏差。语料库通过芬兰语言银行公开提供，支持学术研究和商业应用，用户需遵循数据保护法规，并可通过发布的基准系统和代码快速开展实验。

背景与挑战

背景概述

Lahjoita puhetta语料库作为一项大规模芬兰语口语资源，由阿尔托大学与赫尔辛基大学等机构于2020年启动的“捐赠语音”运动创建，旨在系统性地采集日常会话中的自发语音。该语料库涵盖超过3600小时的语音数据，涉及两万余名来自芬兰各年龄段及地区的说话者，其核心研究目标在于填补芬兰语口语资源空白，推动语音技术及人工智能服务的发展。相较于已有的芬兰议会语音库等正式语体资源，该数据集聚焦于非正式、自发性的口语变体，为语音识别、方言分析及社会语言学等领域提供了关键数据支撑，显著促进了芬兰语自然语言处理研究的深度与广度。

当前挑战

该数据集致力于解决自发口语语音识别这一核心领域问题，其挑战在于芬兰语口语中存在大量语音缩略、词形变异及非标准发音现象，导致传统基于书面语的模型难以准确处理。在构建过程中，研究团队面临多重挑战：一是数据采集需平衡规模与代表性，通过设计多样化的主题激励参与者贡献自然语音，同时确保涵盖不同方言、年龄及性别群体；二是语音转写质量保障极为复杂，需通过多轮标注者筛选与自动校验机制应对口语的不规范性及噪声干扰；三是法律与伦理约束严格，在符合欧盟《通用数据保护条例》的前提下，需设计合规的参与者知情同意流程及数据匿名化处理方案。

常用场景

经典使用场景

在芬兰语自然语言处理领域，Lahjoita puhetta语料库为研究口语化、自发性的芬兰语提供了关键资源。该数据集通过大规模众包方式收集了约3600小时的日常对话语音，覆盖了芬兰各地区的两万余名不同年龄段的说话者。其经典应用场景在于训练和评估自动语音识别系统，特别是针对非正式、即兴的芬兰语语音，弥补了以往仅依赖正式议会演讲语料库的不足。研究者可利用该数据集探索口语语音的声学特征、词汇变异及语用现象，为构建更贴近实际应用场景的语音技术奠定基础。

解决学术问题

Lahjoita puhetta语料库有效解决了芬兰语语音研究中长期存在的资源匮乏问题。以往可用的芬兰语语音数据多集中于正式朗读式演讲，缺乏对日常口语的覆盖，导致语音技术在实际应用中表现受限。该数据集通过提供大规模、多样化的自发语音样本，使研究者能够深入分析口语与书面语在音系、形态和词汇层面的差异。此外，其丰富的元数据（如年龄、性别、方言和话题）支持了语音识别偏差检测、多模态分类及社会语言学分析等前沿课题，推动了语音技术向更公平、更包容的方向发展。

实际应用

在实际应用层面，Lahjoita puhetta语料库为芬兰语语音技术的商业化部署提供了重要支撑。基于该数据集训练的自动语音识别模型可广泛应用于智能助理、语音转写服务和无障碍通信工具中，提升对日常对话的理解能力。同时，其方言和话题分类功能有助于开发个性化的语音交互系统，适应不同地区用户的语言习惯。在教育和文化保护领域，该数据集为芬兰语方言研究、语言教学材料的开发以及口语文化遗产的数字化保存提供了宝贵资源，促进了语言技术的实际社会价值。

数据集最近研究