Mixed Cantonese and English (MCE) audio dataset

Name: Mixed Cantonese and English (MCE) audio dataset
Creator: 香港科技大学 2南京航空航天大学
Published: 2024-02-18 16:24:56
License: 暂无描述

arXiv2024-02-18 更新2024-06-21 收录

下载链接：

https://github.com/Shelton1013/Whisper MCE

下载链接

链接失效反馈

官方服务：

资源简介：

MCE数据集是由香港科技大学和南京航空航天大学合作创建的，专注于混合粤语和英语的自动语音识别研究。该数据集包含34.8小时的音频文件，涵盖日常生活中的18个主题，由GPT-4生成文本信息，并由志愿者根据这些文本录制音频。MCE数据集的创建旨在解决现有数据集中缺乏混合语言表达的问题，特别是在粤语和英语混合使用频繁的香港地区。该数据集的应用领域包括提升自动语音识别系统在处理混合语言环境中的性能，尤其是在粤语和英语的混合使用场景中。

The MCE Dataset was co-developed by The Hong Kong University of Science and Technology and Nanjing University of Aeronautics and Astronautics, focusing on automatic speech recognition (ASR) research for code-switched Cantonese and English. This dataset contains 34.8 hours of audio recordings spanning 18 daily life topics. Its textual content was generated by GPT-4, and audio data was collected via volunteer recordings based on these generated texts. The MCE Dataset was created to address the lack of code-switched language datasets, especially in regions like Hong Kong where Cantonese and English are frequently used in mixed contexts. Its applications include improving the performance of automatic speech recognition systems in code-switched linguistic environments, particularly in scenarios involving frequent mixed use of Cantonese and English.

提供机构：

香港科技大学 2南京航空航天大学

创建时间：

2023-10-27

搜集汇总

数据集介绍

构建方式

在混合语言语音识别领域，高质量数据集的稀缺性构成了研究的主要瓶颈。MCE数据集的构建采用了创新的多阶段流程，首先从高质量日常对话中收集并分类粤英混合文本，随后利用GPT-4基于人工标注的对话转录生成多样化的混合文本语料，覆盖18个日常生活主题。为确保语音的自然性与真实性，研究团队招募了20位具有不同口音的香港本地志愿者，以日常会话的语速和语调进行录音，最终形成了总计34.8小时的高质量、人工录制的粤英混合语音数据集，有效避免了合成语音在混合语言场景下的局限性。

特点

MCE数据集的核心特点在于其高度真实的混合语言表征与精细的标注质量。该数据集专门针对粤语与英语的语码转换场景设计，所有音频均包含自然交织的双语内容，精准反映了香港地区的日常语言使用习惯。数据覆盖话题广泛，文本包含307,540个汉字与70,132个英文单词，在语音层面保留了真实的方言口音、语速变化及口语化表达。与现有单语或网络采集的粤语数据集相比，MCE通过人工录制与校对，确保了语音与文本标注的高度一致性，为混合语言语音识别模型提供了稀缺且可靠的训练资源。

使用方法

该数据集主要用于训练与评估混合语言自动语音识别模型，尤其适用于粤英混合场景。研究者可将其划分为训练集与测试集，直接用于微调预训练模型如Whisper，以提升模型在语码转换环境下的识别鲁棒性。数据集中包含的文本转录可用于监督学习，而语音文件的时长分布集中于5-12秒，适配多数端到端语音识别架构。此外，数据集的多样发音风格与话题分布也为模型泛化能力测试提供了良好基础，支持在保真度、准确性与延迟等多维度进行系统性能评估。

背景与挑战

背景概述

在自动语音识别（ASR）领域，随着端到端模型与大规模预训练技术的演进，英语等主流语言的识别性能已接近人类水平，然而小语种及混合语言场景下的识别仍面临显著挑战。Mixed Cantonese and English (MCE) 音频数据集由香港科技大学与南京航空航天大学的研究团队于2024年构建，旨在解决粤语与英语混合语音的识别问题。该数据集包含34.8小时的高质量标注音频，覆盖18个日常生活主题，通过结合GPT-4生成文本与人工录音的方式，有效捕捉了香港地区日常交流中粤英混杂的真实语料。MCE的创建不仅填补了混合语言数据资源的空白，还为微调如Whisper等大规模模型提供了关键支撑，推动了小语种及混合语言ASR技术的发展。

当前挑战

MCE数据集所针对的混合语言语音识别任务，核心挑战在于如何准确处理同一语句中多语言交织的复杂现象，例如粤语与英语在发音、语法及词汇层面的交互干扰，传统单语言模型或简单并行方法难以有效应对。在数据集构建过程中，研究者面临高质量混合语料稀缺的困境，现有粤语数据集往往缺乏英语混杂的真实样本，且数据标注质量参差不齐。此外，生成多样化、自然流畅的混合语言文本需依赖GPT-4等先进模型，而音频录制则因缺乏可靠的混合语言语音合成技术，不得不依赖人工完成，这增加了数据采集的成本与复杂性。

常用场景

经典使用场景

在粤语与英语混合语音识别的研究领域，高质量双语交织语料的稀缺长期制约着模型性能的提升。MCE数据集通过精心设计的语料生成与人工录制流程，构建了涵盖18个日常生活主题的34.8小时高质量粤英混合语音语料库。该数据集最经典的应用场景在于为端到端语音识别模型，特别是Whisper架构的微调，提供精准的监督训练数据，显著提升模型在真实对话场景中对粤语词汇、英语借词及语码转换现象的识别准确率。

实际应用

在实际应用层面，MCE数据集支撑的语音识别技术可广泛应用于粤港澳大湾区多语言交融的日常生活与商业场景。例如，在跨境客服系统中准确理解夹杂英语术语的粤语咨询，为本地媒体提供实时双语字幕生成服务，或在智慧教育领域辅助粤英双语教学内容的语音转录。其低延迟、高精度的特性尤其适合部署于移动设备与边缘计算终端，满足实时语音交互应用对资源效率与准确性的双重需求。

衍生相关工作

基于MCE数据集衍生的经典工作以Whisper-MCE微调模型为核心，该工作系统验证了高质量领域特定数据对大模型性能的增强效应。研究进一步推动了混合语言评估指标的发展，提出的FAL评估框架被后续研究借鉴用于跨语言语音识别系统的多维性能分析。此外，该数据集构建中融合GPT-4的语料生成与人工校验协同范式，为低资源语言语料库建设提供了可复用的方法论参考，启发了后续研究在泰语、日语等语言混合场景下的类似数据构建工作。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集