birgermoell/dysarthria

Name: birgermoell/dysarthria
Creator: birgermoell
Published: 2023-12-21 13:45:53
License: 暂无描述

Hugging Face2023-12-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/birgermoell/dysarthria

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2000个样本，分为四类：患有构音障碍的男性、患有构音障碍的女性、未患构音障碍的男性和未患构音障碍的女性。每个类别包含500个样本，这些样本是在不同的会话中录制的音频。数据集还包括一个CSV文件，其中包含音频文件路径、是否患有构音障碍以及性别信息。数据集的用途主要是应用深度学习技术来分类构音障碍和非构音障碍患者。

提供机构：

birgermoell

原始信息汇总

数据集概述

数据集内容

该数据集包含2000个样本，分为四类：
- 构音障碍男性（dysarthric males）
- 构音障碍女性（dysarthric females）
- 非构音障碍男性（non-dysarthric males）
- 非构音障碍女性（non-dysarthric females）

数据结构

数据集分为四个文件夹：
- dysarthria_female：500个构音障碍女性的音频样本，记录于不同会话。
- dysarthria_male：500个构音障碍男性的音频样本，记录于不同会话。
- non_dysarthria_female：500个非构音障碍女性的音频样本，记录于不同会话。
- non_dysarthria_male：500个非构音障碍男性的音频样本，记录于不同会话。
包含一个data.csv文件，记录音频文件路径、是否为构音障碍、性别等信息。

数据应用

该数据集可用于应用深度学习技术对构音障碍和非构音障碍患者进行分类。

参考文献

Dumane, P., Hungund, B., Chavan, S. (2021). Dysarthria Detection Using Convolutional Neural Network. In: Pawar, P.M., Balasubramaniam, R., Ronge, B.P., Salunkhe, S.B., Vibhute, A.S., Melinamath, B. (eds) Techno-Societal 2020. Springer, Cham. https://doi.org/10.1007/978-3-030-69921-5_45

搜集汇总

数据集介绍

构建方式

在言语病理学领域，构建高质量的数据集对于研究构音障碍至关重要。该数据集源自TORGO数据库，通过精心筛选和整理，收录了2000个音频样本，涵盖构音障碍男性、构音障碍女性、非构音障碍男性及非构音障碍女性四类群体。每个类别均包含500个样本，这些样本在不同会话中录制，确保了数据的多样性和代表性。数据集的构建严格遵循学术规范，仅用于研究目的，并附有详细的元数据文件，如音频路径、构音障碍状态及性别信息，为后续分析提供了坚实基础。

特点

该数据集在构音障碍研究中展现出显著特点。其样本均衡分布于不同性别和健康状况，有效避免了数据偏差，提升了模型的泛化能力。音频数据来源于真实会话环境，捕捉了自然言语中的细微差异，为构音障碍检测提供了丰富的声学特征。此外，数据集结构清晰，附带标准化标签，便于研究人员快速整合与预处理。这些特点使其成为开发深度学习分类模型的理想资源，尤其在医疗辅助诊断领域具有重要应用价值。

使用方法

在应用层面，该数据集主要用于构音障碍的自动检测与分类研究。研究人员可借助深度学习技术，如卷积神经网络，对音频样本进行特征提取和模型训练。通过加载数据集中提供的CSV文件，可以轻松访问音频路径及相关标签，实现数据的高效管理。典型应用包括构建二分类模型，区分构音障碍与非构音障碍患者，或结合性别信息进行多维度分析。使用时应严格遵守学术许可，确保数据仅用于推动言语病理学的发展，避免任何非授权用途。

背景与挑战

背景概述

在言语病理学与计算语言学的交叉领域，构音障碍的自动检测一直是研究热点。TORGO数据库作为该领域的基石性资源，由多伦多大学的研究团队于2012年创建，核心目标在于提供一套包含构音障碍与非构音障碍说话者的声学与发音数据，以支持对运动性言语障碍的客观分析与建模。该数据集不仅记录了不同性别与健康状况的语音样本，还通过严谨的实验设计，为后续研究提供了高质量的基准数据，显著推动了基于机器学习的构音障碍分类技术的发展，并在临床辅助诊断与康复评估中展现出潜在应用价值。

当前挑战

构音障碍检测的核心挑战在于其声学特征的复杂性与个体差异性，如发音不清、语速异常及韵律失调等现象，使得传统语音识别模型难以准确区分病理性与正常语音。在数据构建过程中，研究者需克服录音环境的一致性控制、发音任务的标准化设计以及临床标注的可靠性验证等难题，同时确保数据在伦理与隐私方面的合规性。这些因素共同构成了该领域在模型泛化能力与临床实用性方面的重要瓶颈。

常用场景

经典使用场景

在言语病理学和计算语言学领域，birgermoell/dysarthria数据集为研究构音障碍提供了关键资源。该数据集最经典的使用场景是训练和评估自动语音识别与分类模型，特别是针对构音障碍患者的语音特征分析。通过包含2000个样本，涵盖构音障碍与非构音障碍的男女性别分组，研究人员能够深入探索语音信号中的声学差异，从而开发出精准的检测算法。这一场景不仅推动了语音技术的进步，还为临床诊断提供了数据支持，使得模型能够在多样化的语音样本中识别出细微的病理特征。

衍生相关工作

该数据集衍生了一系列经典研究工作，如Dumane等人（2021）提出的卷积神经网络模型，用于构音障碍检测。这些工作进一步拓展了语音分析的前沿，包括基于深度学习的分类算法和声学特征融合方法。相关研究不仅验证了数据集的实用性，还激发了更多创新，例如多模态数据集成和实时处理系统的开发，为言语障碍研究开辟了新方向，促进了学术与工业界的合作。

数据集最近研究