Multitask National Speech Corpus (MNSC)

Name: Multitask National Speech Corpus (MNSC)
Creator: 新加坡科技研究局信息通信研究院
Published: 2025-01-02 11:28:52
License: 暂无描述

arXiv2025-01-02 更新2025-01-06 收录

下载链接：

https://github.com/AudioLLMs/Singlish

下载链接

链接失效反馈

官方服务：

资源简介：

Multitask National Speech Corpus (MNSC) 是由新加坡科技研究局信息通信研究院开发的一个大规模口语新加坡英语语料库，旨在支持多种任务，如自动语音识别、口语问答、口语对话摘要和副语言问答。该数据集包含约10,000小时的录音，涵盖了新加坡英语的多种口音和代码切换模式。数据集的创建过程包括元数据提取、现有语料库的清理以及使用大语言模型进行合成。所有测试集都经过人工注释以确保高质量和可靠性。该数据集的应用领域主要集中在多语言和代码切换的自然语言处理研究，旨在解决新加坡英语在语音技术中的独特挑战，如多语言特性、多样化的口音和复杂的句法结构。

Multitask National Speech Corpus (MNSC) is a large-scale spoken Singaporean English corpus developed by the Institute for Infocomm Research (I2R), Agency for Science, Technology and Research (A*STAR) of Singapore. It is designed to support a variety of tasks including Automatic Speech Recognition (ASR), spoken question answering, spoken dialogue summarization, and paralinguistic question answering. This corpus contains approximately 10,000 hours of recordings, covering diverse accents and code-switching patterns of Singaporean English. The construction process of the dataset involves metadata extraction, cleaning of existing corpora, and synthesis using Large Language Models (LLMs). All test sets have undergone manual annotation to ensure high quality and reliability. The application fields of this dataset mainly focus on multilingual and code-switching natural language processing (NLP) research, aiming to tackle the unique challenges of Singaporean English in speech technology, such as its multilingual features, diverse accents, and complex syntactic structures.

提供机构：

新加坡科技研究局信息通信研究院

创建时间：

2025-01-02

搜集汇总

数据集介绍

构建方式

Multitask National Speech Corpus (MNSC) 的构建基于新加坡国家语音语料库（NSC），通过提取元数据、清理现有语料库并结合大语言模型进行合成。数据集涵盖了自动语音识别（ASR）、口语问答（SQA）、口语对话摘要（SDS）和副语言问答（PQA）等任务。所有测试集均经过人工标注或后期编辑，以确保高质量和可靠性。MNSC 的发布旨在支持未来对新加坡英语口语理解任务的研究，特别是在多模态大语言模型的时代，能够在一个统一的框架内处理多种任务。

特点

MNSC 数据集的特点在于其多任务性质，涵盖了从基础语音识别到复杂口语理解任务的广泛领域。数据集不仅包含标准化的训练集和测试集，还提供了人工标注的高质量测试样本，确保了数据的多样性和可靠性。此外，MNSC 特别关注新加坡英语（Singlish）的多语言特性、多样化的口音和复杂的句法结构，使其成为研究多语言和代码切换自然语言处理（NLP）的重要资源。

使用方法

MNSC 数据集的使用方法包括多个任务的应用场景。对于自动语音识别（ASR），用户可以利用数据集进行语音到文本的转录任务；对于口语问答（SQA），数据集提供了基于语音的问答对，支持模型进行复杂的推理任务；口语对话摘要（SDS）任务则要求模型从对话中提取关键信息并生成摘要；副语言问答（PQA）任务则进一步扩展了模型的能力，使其能够从语音中推断出性别、口音等副语言特征。数据集的使用可以通过标准化训练集和测试集进行模型训练和评估，支持多模态大语言模型的联合训练和任务融合。

背景与挑战

背景概述

Multitask National Speech Corpus (MNSC) 是由新加坡信息通信研究院（I2R）和前沿人工智能研究中心（CFAR）的研究团队于2025年推出的一个多任务语音语料库，旨在填补新加坡英语（Singlish）在语音理解领域的空白。Singlish作为一种基于英语的克里奥尔语，具有多语言、多文化的特点，但其口语形式的研究相对较少。MNSC的推出为自动语音识别（ASR）、口语问答（SQA）、口语对话摘要（SDS）以及副语言学问答（PQA）等任务提供了标准化的数据集，推动了Singlish语音理解的研究。该数据集不仅为学术界提供了丰富的资源，还为多模态大语言模型（如SingAudioLLM）的应用奠定了基础，显著提升了Singlish语音处理的性能。

当前挑战

MNSC在构建和应用过程中面临多重挑战。首先，Singlish作为一种低资源语言，其语音数据的收集和标注难度较大，尤其是在多语言混合和代码切换的语境下，语音识别和理解任务变得更加复杂。其次，现有的Singlish语音语料库（如新加坡国家语音语料库）虽然提供了大量数据，但其录音场景不一致，且缺乏标准化的训练和测试集，难以支持多任务学习。此外，Singlish的多语言特性和复杂的句法结构使得模型在处理语音信号时需要更强的适应能力。在构建MNSC时，研究团队通过大规模语言模型进行数据增强，并结合人工标注确保了数据的高质量，但仍需解决数据对齐和噪声问题。这些挑战不仅影响了数据集的构建，也对模型的性能提出了更高的要求。

常用场景

经典使用场景

Multitask National Speech Corpus (MNSC) 数据集在语音技术领域具有广泛的应用，尤其是在多任务学习场景中。该数据集支持自动语音识别（ASR）、口语问答（SQA）、口语对话摘要（SDS）以及副语言学问答（PQA）等多种任务。通过提供标准化的训练集和测试集，MNSC 为研究人员提供了一个统一的基准，用于评估和比较不同模型在多任务环境下的表现。特别是在处理新加坡英语（Singlish）这种具有多语言特性和复杂语法结构的语言时，MNSC 展现了其独特的价值。

实际应用

在实际应用中，MNSC 数据集为新加坡英语的语音识别和理解提供了强大的支持。例如，在智能客服系统中，MNSC 可以帮助系统更好地理解新加坡英语用户的语音输入，从而提高交互的准确性和效率。此外，MNSC 还可用于教育领域，帮助学习者通过语音识别技术更好地掌握新加坡英语的发音和语法。在医疗领域，MNSC 的副语言学分析功能可以用于情感识别，帮助医生通过语音分析患者的情绪状态。

衍生相关工作

MNSC 数据集的发布催生了一系列相关研究工作，尤其是在多模态大语言模型（AudioLLMs）领域。基于 MNSC，研究人员开发了 SingAudioLLM，这是一个多任务多模态模型，能够同时处理语音识别、问答、对话摘要等任务。该模型在多个任务上取得了显著的性能提升，超越了现有的语音识别模型。此外，MNSC 还推动了新加坡英语语音理解的研究，促进了多语言和代码切换自然语言处理（NLP）领域的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集