Multi-Domain Cantonese Corpus (MDCC)

Name: Multi-Domain Cantonese Corpus (MDCC)
Creator: 香港科技大学
Published: 2022-01-17 19:16:53
License: 暂无描述

arXiv2022-01-17 更新2024-06-21 收录

下载链接：

http://compling.hss.ntu.edu.sg/hkcancor/

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Domain Cantonese Corpus (MDCC)是由香港科技大学创建的一个包含73.6小时干净朗读语音的数据集，涵盖哲学、政治、教育、文化、生活方式和家庭等多个领域。该数据集从香港的粤语有声读物中收集，包含约83,275条语音记录，每条记录时长在0.22至15秒之间。MDCC旨在解决粤语自动语音识别（ASR）系统中数据稀缺的问题，并通过与现有数据集如Common Voice zh-HK的比较，展示了其在ASR研究中的有效性。

The Multi-Domain Cantonese Corpus (MDCC) is a dataset containing 73.6 hours of clean read speech, developed by The Hong Kong University of Science and Technology. It covers multiple domains including philosophy, politics, education, culture, lifestyle, and family. Collected from Cantonese audiobooks in Hong Kong, this dataset comprises approximately 83,275 speech records, with each clip ranging from 0.22 to 15 seconds in duration. MDCC aims to address the issue of data scarcity in Cantonese automatic speech recognition (ASR) systems, and demonstrates its effectiveness in ASR research through comparisons with existing datasets such as Common Voice zh-HK.

提供机构：

香港科技大学

创建时间：

2022-01-07

搜集汇总

数据集介绍

构建方式

Multi-Domain Cantonese Corpus (MDCC) 的构建方式主要通过收集香港粤语有声读物来实现。该数据集包含了来自不同领域的粤语有声读物，涵盖哲学、政治、教育、文化、生活方式和家庭等多个主题。为了确保数据的质量和适用性，研究团队聘请了母语为粤语的专家对有声读物进行筛选，剔除不适合自动语音识别（ASR）系统的部分。随后，通过语音活动检测（VAD）工具将有声读物分割成更短的音频片段，最终形成了83,275个音频片段，总时长为73.6小时。为了提高转录的准确性，研究团队首先使用Google Cloud Speech-to-Text API进行自动转录，然后聘请母语为粤语的专家对自动生成的转录进行手动校正。

使用方法

MDCC 数据集主要用于粤语自动语音识别（ASR）的研究和模型训练。研究者可以使用该数据集训练和评估ASR模型，特别是基于深度学习的模型。数据集的训练、验证和测试集已经预先划分，分别为57.53小时、5.05小时和11.01小时，便于直接用于模型训练和性能评估。此外，MDCC 可以与其他粤语数据集（如Common Voice zh-HK）结合使用，通过多数据集学习进一步提升模型的鲁棒性和泛化能力。研究者还可以利用该数据集进行语音增强、语音合成等相关研究，探索粤语语音处理的各种应用场景。

背景与挑战

背景概述

自动语音识别（ASR）技术在低资源语言中的应用，尤其是粤语，对于提升语言少数群体对人工智能技术优势的获取至关重要。香港科技大学的一组研究人员，包括Tiezheng Yu、Rita Frieske、Peng Xu等，于2022年创建了多领域粤语语料库（Multi-Domain Cantonese Corpus, MDCC）。该数据集包含73.6小时的清晰朗读语音，来源于香港的粤语有声读物，涵盖哲学、政治、教育、文化、生活方式和家庭等多个领域。MDCC的创建旨在解决粤语数据稀缺的问题，并为粤语自动语音识别研究提供丰富的资源。通过与现有的粤语数据集进行比较，MDCC展示了其在提升ASR模型性能方面的有效性。

当前挑战

MDCC的构建面临多项挑战。首先，粤语作为一种低资源语言，其数据稀缺性限制了ASR系统的发展。尽管香港有大量粤语使用者，但现有的粤语数据集规模较小，且质量参差不齐，难以支持深度学习模型的训练。其次，数据集的构建过程中，研究人员需要从多种有声读物中筛选出适合ASR系统的语音材料，并进行高质量的转录和校对。此外，如何有效地利用多领域数据进行模型训练，以提高模型的泛化能力和鲁棒性，也是MDCC面临的重要挑战。最后，尽管MDCC在提升粤语ASR性能方面取得了显著成果，但其数据规模仍相对较小，未来需要进一步扩展数据集，以支持更复杂的ASR任务。

常用场景

经典使用场景

Multi-Domain Cantonese Corpus (MDCC) 最经典的使用场景之一是用于构建和优化自动语音识别（ASR）系统。该数据集包含了73.6小时的清晰朗读语音，涵盖了哲学、政治、教育、文化、生活方式和家庭等多个领域，为研究人员提供了丰富的语料资源。通过使用MDCC，研究人员可以训练和验证ASR模型，尤其是在低资源语言环境中，提升模型的识别准确率和鲁棒性。

解决学术问题

MDCC 解决了低资源语言（如粤语）在自动语音识别（ASR）研究中的数据稀缺问题。由于粤语在学术界和工业界的资源相对匮乏，现有的ASR系统在粤语上的表现往往不尽如人意。MDCC通过提供高质量的多领域语音数据，填补了这一研究空白，使得研究人员能够更好地训练和评估ASR模型，推动粤语及其他低资源语言的语音识别技术发展。

实际应用

MDCC 在实际应用中具有广泛的前景，尤其是在粤语为主要语言的地区，如香港。该数据集可以用于开发智能语音助手、语音翻译工具、语音输入法等应用，提升用户体验。此外，MDCC还可用于教育领域，帮助开发粤语学习软件，促进语言文化的传承与推广。通过这些实际应用，MDCC为粤语社区提供了更多技术支持，增强了人工智能技术在语言多样性中的包容性。

数据集最近研究