CL-MASR

arXiv2023-10-26 更新2024-07-30 收录

下载链接：

https://github.com/speechbrain/benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

CL-MASR是一个为研究多语言自动语音识别在持续学习环境下表现而设计的基准。它提供了一系列持续学习方法，这些方法基于大规模预训练的ASR模型，并配有常用指标来评估学习新语言时的有效性，同时解决灾难性遗忘问题。

CL-MASR is a benchmark designed for researching the performance of multilingual automatic speech recognition (ASR) in continual learning scenarios. It provides a series of continual learning methods based on large-scale pre-trained ASR models, and is equipped with commonly-used metrics to evaluate the effectiveness of learning new languages, while addressing the issue of catastrophic forgetting.

创建时间：

2023-10-26

原始信息汇总

SpeechBrain Benchmarks

数据集概述

SpeechBrain Benchmarks 是一个包含多个标准化基准测试的数据集，旨在评估和比较不同语音处理模型和技术的性能。这些基准测试与 SpeechBrain 工具包相关联。

包含的基准测试

CL_MASR: 用于评估持续学习技术，特别是针对语音识别中新语言的持续学习。
MP3S: 用于公平评估自监督语音表示的基准测试。
MOABB: 用于评估神经模型在著名脑电图任务（如运动想象、P300 和 SSVEP）中的性能。
DASB: 用于评估离散音频令牌在广泛的判别和生成任务中的性能。

安装指南

克隆 GitHub 仓库并安装要求： bash git clone https://github.com/speechbrain/benchmarks.git cd benchmarks git submodule update --init --recursive cd speechbrain pip install -r requirements.txt pip install -e .
在 Python 代码中访问 SpeechBrain： python import speechbrain as sb

测试安装

确保安装正确，运行以下命令： bash pytest tests pytest --doctest-modules speechbrain

运行实验

在 SpeechBrain 中，可以使用以下步骤为任何任务训练模型： python cd recipes/<dataset>/<task>/ python experiment.py params.yaml

结果将保存在 YAML 文件中指定的 output_folder 中。

引用 SpeechBrain

如果使用 SpeechBrain 进行研究或商业用途，请引用以下内容： bibtex @misc{speechbrain, title={{SpeechBrain}: A General-Purpose Speech Toolkit}, author={Mirco Ravanelli and Titouan Parcollet and Peter Plantinga and Aku Rouhe and Samuele Cornell and Loren Lugosch and Cem Subakan and Nauman Dawalatabad and Abdelwahab Heba and Jianyuan Zhong and Ju-Chieh Chou and Sung-Lin Yeh and Szu-Wei Fu and Chien-Feng Liao and Elena Rastorgueva and François Grondin and William Aris and Hwidong Na and Yan Gao and Renato De Mori and Yoshua Bengio}, year={2021}, eprint={2106.04624}, archivePrefix={arXiv}, primaryClass={eess.AS}, note={arXiv:2106.04624} }

搜集汇总

数据集介绍

构建方式

在构建CL-MASR数据集时，研究团队从Common Voice 13这一大规模多语言语音数据集中精心筛选了20种语言，划分为基础语言组与新增语言组。基础语言组包含英语、中文等10种高资源语言，新增语言组则涵盖卢旺达语、世界语等10种中低资源语言。为确保数据质量与实验可行性，团队对原始语音样本进行了预处理，包括过滤过长音频、标准化文本转录，并为每种语言随机抽取了训练、验证与测试数据子集，每语言训练数据上限为10小时。这种构建策略不仅有效降低了大规模预训练模型微调的计算负担，更真实模拟了持续学习场景下数据受限的实际情况。

特点

CL-MASR数据集的核心特点在于其专为多语言自动语音识别的持续学习研究而设计。该数据集首次系统性地将持续学习范式引入多语言ASR领域，填补了现有研究空白。其语言选择具有显著差异性：基础语言代表广泛支持的高资源语种，而新增语言均为现有主流ASR系统难以处理的中低资源语种，这为评估模型在资源不均衡条件下的学习能力提供了挑战性场景。数据集构建注重实验可复现性，通过标准化的数据划分与预处理流程，确保不同持续学习方法能在统一基准下进行公平比较。

使用方法

使用CL-MASR数据集时，研究者通常基于大规模预训练ASR模型（如Whisper或WavLM）进行持续学习实验。实验流程首先在基础语言组上对模型进行初始化，随后以增量方式依次学习新增语言。数据集支持三类主流持续学习方法的评估：基于复现的方法（如经验回放）、基于架构的方法（如渐进神经网络）以及基于正则化的方法（如弹性权重巩固）。评估体系采用多维度指标，包括平均词错误率、后向迁移、不妥协度量与前向迁移，全面衡量模型在稳定性与可塑性之间的平衡能力。该数据集已集成于SpeechBrain工具包，提供模块化实验平台，便于研究者扩展新的学习方法与模型架构。

背景与挑战

背景概述

在自动语音识别领域，随着全球化交流需求的日益增长，大规模多语言ASR模型如Whisper和WavLM的兴起，使得单一模型能够处理上百种语言的语音转录成为可能。然而，现有研究多集中于静态多任务评估，忽视了模型在持续学习新语言时面临的挑战。为此，由康考迪亚大学、巴黎电信学院和拉瓦尔大学的研究团队于2023年共同提出了CL-MASR基准数据集。该数据集旨在填补多语言ASR在持续学习研究中的空白，核心研究问题聚焦于如何使模型在增量学习新语言的同时，有效缓解灾难性遗忘现象。CL-MASR基于Common Voice 13语料库，精选了20种涵盖高资源与中低资源的语言，并构建了模块化实验平台，为评估持续学习方法在真实多语言场景下的性能提供了首个标准化测试环境，对推动自适应语音技术的发展具有重要影响力。

当前挑战

CL-MASR所针对的多语言ASR持续学习问题，其核心挑战在于平衡模型的可塑性（学习新语言的能力）与稳定性（保留旧语言知识的能力），即经典的稳定性-可塑性困境。具体而言，灾难性遗忘现象尤为突出，当模型增量学习新语言时，权重调整易导致对已学语言性能的急剧下降。此外，不同语言在词汇、音系和语法结构上的差异，以及共享与语言特定标签空间的交织，进一步增加了知识迁移与冲突管理的复杂度。在数据集构建过程中，挑战主要体现在语言资源的均衡性处理上，需精心筛选高资源基础语言与中低资源新语言组合，以模拟真实场景下的数据分布差异。同时，对大规模预训练模型（如Whisper和WavLM）进行增量微调时，还需克服内存限制、训练动态差异以及语言顺序敏感性等问题，确保评估的严谨性与可复现性。

常用场景

经典使用场景

在语音识别领域，多语言自动语音识别系统面临着持续学习新语言时产生的灾难性遗忘问题。CL-MASR基准测试通过整合大规模预训练模型如Whisper和WavLM，为研究者提供了一个评估多种持续学习方法的标准化平台。该数据集的核心应用场景在于模拟现实世界中语音识别系统逐步扩展语言覆盖范围的过程，通过引入中低资源语言任务序列，系统化地测试模型在增量学习环境下的性能表现。

实际应用

在实际应用中，CL-MASR可服务于需要持续更新语言支持的语音识别系统，例如全球化企业的多语言客服平台或实时翻译设备。通过该基准测试优化的模型能够在不重新训练整个系统的前提下，逐步融入新的方言或专业术语，显著降低计算成本并提升部署灵活性。这种能力对于覆盖全球七千余种语言的长期愿景具有重要实践价值。

衍生相关工作

基于CL-MASR的基准框架，后续研究衍生出多种创新方向。例如，将经验回放与知识蒸馏相结合的方法被进一步优化，以提升模型在任务无关场景下的鲁棒性。同时，该数据集促进了针对语音序列任务的提示学习技术探索，以及轻量级适配器网络在持续学习中的应用。这些工作共同推动了多语言语音识别系统向更高效、更稳定的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集