NeuroBench/mswc_fscil_subset

Name: NeuroBench/mswc_fscil_subset
Creator: NeuroBench
Published: 2025-02-17 16:56:10
License: 暂无描述

Hugging Face2025-02-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NeuroBench/mswc_fscil_subset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个针对Few-shot Class-incremental Learning任务的Multilingual Spoken Word Corpus数据集的子集。包含15种语言，分为5种基础语言（英语、德语、加泰罗尼亚语、法语、基尼亚鲁旺达语）和10种增量学习语言（波斯语、西班牙语、俄语、威尔士语、意大利语、巴斯克语、波兰语、世界语、葡萄牙语、荷兰语）。每种基础语言有20个类别，训练、验证和测试的样本数量分别为500、100、100。每种增量学习语言有10个类别，每个类别有200个样本，其中一小部分用于少量样本训练，100个用于测试。模型最初有100个基础类别的单词的知识库，到所有增量学习会话结束时扩展到200个单词。

This is a subset of the Multilingual Spoken Word Corpus dataset for the Few-shot Class-incremental Learning task. It includes 15 languages, divided into 5 base languages (English, German, Catalan, French, Kinyarwanda) and 10 incrementally learned languages (Persian, Spanish, Russian, Welsh, Italian, Basque, Polish, Esparanto, Portuguese, Dutch). Each of the 5 base languages has 20 classes with 500/100/100 samples for train/val/test splits. Each of the 10 incremental languages has 10 classes, each with 200 samples, with a small number (e.g., 5) chosen for few-shot training and 100 for testing. The model starts with a knowledge base of 100 words from the base classes, expanding to 200 words by the end of all incremental sessions.

提供机构：

NeuroBench

原始信息汇总

多语言口语单词数据集子集

数据集概述

该数据集是多语言口语单词语料库的一个子集，专门为少样本类增量学习（Few-shot Class-incremental Learning, FSCIL）任务构建。

语言选择

基础语言：5种（英语、德语、加泰罗尼亚语、法语、基尼亚卢旺达语）
增量学习语言：10种（波斯语、西班牙语、俄语、威尔士语、意大利语、巴斯克语、波兰语、世界语、葡萄牙语、荷兰语）

任务描述

FSCIL任务首先使用5种基础语言的大量训练数据训练模型，然后在后续的增量学习阶段，模型必须从每种增量语言中学习新单词，每个单词只有少量训练样本，同时保留所有先前学习过的单词知识。

数据划分

基础语言：每种语言包含20个类别，每个类别有500/100/100个样本用于训练/验证/测试。
增量学习语言：每种语言包含10个类别，每个类别有200个可用样本。其中，少量样本（例如5个）用于少样本训练，100个样本用于测试。

模型知识扩展

模型首先拥有100个基础类别单词的知识库，经过所有增量学习阶段后，扩展到200个单词。

数据格式

默认情况下，NeuroBench工具将安装48kHz的opus格式数据。16kHz的wav格式音频文件也可从本仓库下载。

搜集汇总

数据集介绍

构建方式

在语音识别与增量学习交叉领域，NeuroBench/mswc_fscil_subset数据集基于多语言口语词汇语料库精心构建，专为少样本类增量学习任务设计。该数据集选取了15种语言，划分为5种基础语言和10种增量学习语言，每种基础语言包含20个类别，每个类别分配500个训练样本、100个验证样本和100个测试样本；而增量语言则各含10个类别，每类提供200个样本，其中少量样本用于少样本训练，其余用于测试。数据以48kHz的Opus格式提供，同时提供转换为16kHz的WAV格式，确保了音频质量的统一性与处理的便捷性。

特点

该数据集的核心特点在于其多语言结构与增量学习框架的紧密结合，涵盖了从英语到荷兰语等15种语言的语音样本，体现了语言多样性与实际应用场景的广泛性。通过将语言分为基础与增量两组，它模拟了现实世界中模型需在有限数据下持续学习新类别的挑战，基础语言提供丰富的训练资源，而增量语言则强调少样本适应能力。数据集的样本划分精细，每类样本数量明确，支持模型在保持历史知识的同时逐步扩展词汇库，从初始的100个词汇最终扩展到200个，为语音识别系统的鲁棒性与可扩展性研究提供了坚实基础。

使用方法

使用该数据集时，研究者首先利用5种基础语言的充足样本进行模型初始训练，建立稳定的语音识别基础。随后，在增量学习阶段，模型依次面对10种增量语言，每类仅使用少量样本（如5个）进行微调，同时需保留对已学词汇的记忆，避免灾难性遗忘。数据集提供了标准的训练、验证和测试分割，用户可通过NeuroBench工具链直接加载48kHz或16kHz格式的音频文件，便于进行端到端的实验评估。这种方法不仅适用于少样本类增量学习算法的开发，还能推动多语言语音处理技术的进步，为智能系统的适应性优化提供实证支持。

背景与挑战

背景概述

在语音识别与机器学习交叉领域，少样本类增量学习（FSCIL）逐渐成为应对动态语言环境的核心研究方向。NeuroBench/mswc_fscil_subset数据集于近年由MLCommons等机构构建，旨在通过多语言语音数据探索模型在有限样本下持续学习新词汇的能力。该数据集精选十五种语言，划分为五个基础语言和十个增量语言，模拟从丰富数据训练到逐步吸收新语言词汇的渐进过程。其设计不仅推动了语音识别系统在资源受限场景下的适应性研究，也为跨语言持续学习算法提供了标准化评估基准，对计算语言学与人工智能的融合产生了深远影响。

当前挑战

该数据集致力于解决少样本类增量学习在语音识别中的核心难题：模型如何在仅接触极少量新语言样本时，准确识别新增词汇，同时避免遗忘已掌握的基础语言知识。构建过程中的挑战同样显著，包括多语言语音数据的采集与对齐需克服方言变体与录音环境差异，以及增量学习阶段中样本数量严格受限下的数据平衡问题。此外，确保音频格式统一与质量一致，以支持大规模实验的可重复性，也是数据集构建中需细致处理的技术环节。

常用场景

经典使用场景

在语音识别与多语言学习领域，NeuroBench/mswc_fscil_subset数据集专为少样本类增量学习任务而设计。该数据集从多语言口语语料库中精选15种语言，划分为5种基础语言和10种增量语言，模拟了模型在初始阶段利用丰富数据学习基础词汇，随后在增量会话中仅凭少量样本学习新语言词汇的场景。这一设置完美复现了现实世界中智能系统需持续适应新语言而不遗忘旧知识的挑战，为评估模型在动态环境下的稳健性与适应性提供了标准化基准。

衍生相关工作

围绕该数据集，学术界已衍生出一系列经典研究工作，主要集中在改进持续学习架构与优化少样本学习策略上。例如，研究者们开发了基于记忆回放或元学习的算法，以缓解增量会话中的遗忘现象；另有工作探索了跨语言表征对齐技术，增强模型从基础语言到增量语言的泛化能力。这些成果不仅丰富了语音处理领域的文献，还为后续多模态增量学习、低资源语言保护等交叉研究方向提供了重要启示与实验基础。

数据集最近研究