Mandarin Dysarthria Speech Corpus (MDSC)

Name: Mandarin Dysarthria Speech Corpus (MDSC)
Creator: 中国科学技术大学
Published: 2024-06-14 11:06:55
License: 暂无描述

arXiv2024-06-14 更新2024-06-19 收录

下载链接：

https://www.aishelltech.com/AISHELL_6B

下载链接

链接失效反馈

官方服务：

资源简介：

Mandarin Dysarthria Speech Corpus (MDSC)是由北京AISHELL科技有限公司与中国科学技术大学合作创建的，专为家庭环境中语音障碍患者设计的语音数据集。该数据集包含18,630条录音，总计17小时，其中9.4小时来自21位语音障碍患者，7.6小时来自25位标准语音模式的演讲者。数据集涵盖了年龄、性别、疾病类型和可理解性评估等信息，旨在通过提供多样化的语音样本，解决语音唤醒技术在语音障碍患者中的应用问题。创建过程中，录音包括10个唤醒词和355个非唤醒词，采用16kHz采样率，在安静的室内环境中进行。MDSC的应用领域主要集中在改善语音障碍患者的语音唤醒系统，提高其生活质量。

Mandarin Dysarthria Speech Corpus (MDSC) was co-developed by Beijing AISHELL Technology Co., Ltd. and the University of Science and Technology of China. It is a speech corpus specifically designed for dysarthric patients in home environments, containing 18,630 audio recordings totaling 17 hours: 9.4 hours from 21 dysarthric patients, and the remaining 7.6 hours from 25 speakers with standard speech patterns. The corpus covers comprehensive metadata including age, gender, disease type, and intelligibility assessment results, aiming to address the application barriers of speech wake-up technology for dysarthric patients by providing diverse speech samples. During data collection, the recordings covered 10 wake-up words and 355 non-wake-up words, with a sampling rate of 16 kHz, and all recordings were conducted in quiet indoor environments. The primary application scope of MDSC is to optimize speech wake-up systems for dysarthric patients, thereby improving their quality of life.

提供机构：

中国科学技术大学

创建时间：

2024-06-14

搜集汇总

数据集介绍

构建方式

MDSC 数据集的构建基于对智能家庭环境中语音唤醒词检测（WWS）任务的关注，特别是在针对语音障碍者，如发音障碍者，的需求。数据集由 21 位发音障碍者（12 位女性，9 位男性）和 25 位非发音障碍者（13 位女性，12 位男性）的录音组成，总计 17 小时。发音障碍者的录音时长为 9.4 小时，非发音障碍者的录音时长为 7.6 小时。录音内容包含 10 个唤醒词，每个词重复五次，速度各异，以及 355 个非唤醒词。所有录音均在安静的室内环境中进行，参与者距离麦克风约 20 厘米。

特点

MDSC 数据集的特点在于其多样性、自然性和全面性。数据集涵盖了发音障碍者的年龄、性别、疾病类型和可懂度评估等信息。为了评估可懂度，数据集采用了主观和客观两种评价标准，包括由五位专家进行的转录准确率评估和基于开源语音识别模型的识别准确率评估。此外，MDSC 还包含了针对每位发音障碍者预留的 3 分钟注册发音，以便进行个性化语音唤醒系统的训练。

使用方法

MDSC 数据集可用于语音唤醒词检测研究，尤其是针对发音障碍者的研究。使用该数据集时，首先需要根据实验目的选择合适的子集，如训练集、开发集或测试集。对于发音障碍者，还可以利用预留的注册发音进行个性化语音唤醒系统的训练。此外，数据集还提供了丰富的元数据信息，如参与者信息、录音信息等，可用于进一步的数据分析和模型优化。

背景与挑战

背景概述

随着人工智能技术的快速发展，语音控制应用已成为我们生活中不可或缺的一部分。语音唤醒作为开启便利的第一步，受到了广泛关注。然而，语音唤醒技术的普及对失语症患者构成了一定的排斥风险。失语症是一种运动性言语障碍，其特征在于发音、流畅性、音量、清晰度和语速方面的障碍。失语症患者因神经系统疾病如脑瘫和帕金森病而严重依赖语音激活技术来满足日常需求。因此，在设计包含失语症的应用程序时，必须优先考虑包容性。近年来，失语症语料库的可用性推动了技术进步，并显著提高了面对失语症挑战的语音控制系统的鲁棒性。UA-Speech和Torgo是最广泛使用的数据库，它们分别关注脑瘫患者的语音数据和脑瘫及肌萎缩侧索硬化症患者的声学和发音器官运动数据。EasyCall和IDEA是开发意大利命令识别系统和意大利发音障碍的资源。最近的研究转向收集多样化的自然环境中的语音数据，例如Euphonia，它提供了大量的真实生活语音数据。针对中国发音障碍的三种报告数据库：CUDYS专注于发音和语调的声学特征，MSDM针对亚急性中风患者，捕获音频和面部运动数据。然而，这两个数据库的数据集都很小（<10小时），限制了它们在语音识别模型中的使用。CDSD记录了中文失语症语音识别的音频和视频数据。据我们所知，没有专门用于唤醒任务的中文失语症语音数据库。鉴于这一点，本文提出了第一个中文失语症唤醒词语料库，称为中文失语症语音语料库（MDSC），并开发了一个定制的唤醒词检测（WWS）系统，以使语音激活技术对失语症患者更加可访问。我们研究的主要贡献可以概括如下：发布MDSC，包含来自21名失语症说话者的9.4小时录音和来自25名具有标准语音模式的说话者的7.6小时相应控制录音；对MDSC进行全面实验分析，揭示两个主要挑战：显著的域内变化和有限的数据量；提出了一种定制的失语症WWS系统，该系统对可理解性具有鲁棒性，并展现出卓越的性能。

当前挑战

MDSC数据集在唤醒词检测任务中面临着两个主要挑战：显著的域内变化和有限的数据量。每个失语症患者都表现出独特的语音特征，导致音高、语速、呼吸模式和句子边界存在显著差异。此外，由于失语症的影响，招募失语症患者和进行录音的难度较大。失语症的特点往往使得难以进行长时间的录音。因此，我们提出了一个针对说话者的失语症WWS模型作为有希望的方向。为每个说话者定制系统可以忽略域内变化，并且只需要少量针对说话者的数据。我们研究了正负样本比率和注册语音的持续时间对唤醒性能的影响。我们发现，使用3分钟的注册语音进行模型定制可以带来显著的改进。这表明了说话者依赖方法的潜在应用。此外，我们还提供了SDD模型在D1-D6上的测试结果。通过将其与SIC和SID模型进行比较，我们可以看出，SDD模型的唤醒性能受可理解性的影响最小，表明其在处理不同水平可理解性方面具有鲁棒性。然而，尽管有显著的改进，失语症程度极低的人仍然表现出相对较差的结果。这突出了在严重失语症情况下继续存在的挑战。需要进一步的研究和适应性技术来满足极低可理解性失语症患者的特定需求。我们还观察到了失败案例。这些样本展示了失语症患者特有的独特语音特征，这对系统准确地进行预测构成了挑战。

常用场景

经典使用场景

在智能语音唤醒领域，Mandarin Dysarthria Speech Corpus (MDSC) 数据集提供了一个宝贵的资源。该数据集专为汉语失语症患者设计，旨在解决他们在家庭环境中使用语音控制技术时遇到的挑战。MDSC 包含了失语症患者和正常说话者的语音数据，涵盖了年龄、性别、疾病类型和可懂度评估等信息。这使得研究人员能够针对失语症患者的语音特点，开发更加鲁棒的语音唤醒系统。MDSC 的经典使用场景包括：1. 开发针对失语症患者的语音唤醒系统；2. 研究失语症患者语音的特点；3. 评估语音唤醒系统的性能。

解决学术问题

MDSC 数据集的发布解决了两个关键的学术研究问题：1. 失语症患者语音数据的稀缺性；2. 现有语音唤醒系统对失语症患者语音的不适应性。通过提供大量的失语症患者语音数据，MDSC 使得研究人员能够更深入地研究失语症患者的语音特点，并开发出更加鲁棒的语音唤醒系统。此外，MDSC 的发布还促进了语音唤醒技术在失语症患者中的普及和应用，具有重要的学术意义和社会价值。

衍生相关工作

MDSC 数据集的发布衍生了多项相关工作，包括：1. 开发针对失语症患者的语音识别系统；2. 研究失语症患者语音的声学特征；3. 开发针对失语症患者的语音唤醒系统。这些相关工作进一步推动了语音技术在失语症患者中的应用，为失语症患者提供了更多的帮助和支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集