Parkinson Speech Dataset with Multiple Types of Sound Recordings

github2022-10-08 更新2024-05-31 收录

下载链接：

https://github.com/shusinthebox/Classification-Analysis-Of-Parkinson-Speech-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

本研究旨在通过应用机器学习技术分析和诊断帕金森病（PD）患者的语音数据集。特别关注应用逻辑回归、支持向量机（SVM）和K-最近邻（KNN）的变体。该研究基于伊斯坦布尔大学先前的研究，使用相同的数据集，这些数据集来自UCI数据库。

This study aims to analyze and diagnose the speech datasets of Parkinson's disease (PD) patients by applying machine learning techniques, with a particular focus on the variants of logistic regression, support vector machines (SVM), and K-nearest neighbors (KNN). The research is based on previous studies conducted at Istanbul University, utilizing the same datasets sourced from the UCI database.

创建时间：

2015-11-13

原始信息汇总

数据集概述

数据集名称

Parkinson Speech Dataset with Multiple Types of Sound Recordings

数据集来源

UCI Database

研究目的

分析和诊断帕金森病（PD）患者，通过应用机器学习技术（ML）于语音数据集。

应用的机器学习技术

逻辑回归（Logistic Regression）
支持向量机（SVM）
K-最近邻（KNN）

数据集结构

raw_data: 包含从UCI数据库获取的原始.txt文件。
sloo_data: 包含用于SLOO验证方案的数据。
references: 包含应用ML技术于原始数据集的原始研究论文。
presentation: 包含研究项目的演示文稿。
src: 包含用于本研究的ML技术的脚本、结果和图表。
- loso: 包含执行LOSO验证的ML技术的实现和结果。
- sloo: 包含SLOO验证的实现。
- best_voice_samples: 包含从26个样本中选择最佳3个语音样本的实现。

数据集下载

下载原始数据集

搜集汇总

数据集介绍

构建方式

该数据集源自伊斯坦布尔大学的一项研究，旨在通过机器学习技术分析帕金森病患者的语音数据。数据集从UCI机器学习库中获取，包含了多种类型的语音记录，涵盖了帕金森病患者和健康对照组的语音样本。数据集的构建过程包括从原始语音记录中提取特征，并通过机器学习算法进行分类分析。

特点

该数据集的特点在于其多样化的语音记录类型，涵盖了帕金森病患者在不同语音任务中的表现。数据集不仅包含原始的语音文件，还提供了经过预处理的文本数据，便于直接应用于机器学习模型的训练和验证。此外，数据集还支持多种验证方案，如留一法（LOO）和留一受试者法（LOSO），为研究者提供了灵活的验证选择。

使用方法

使用该数据集时，首先需要从UCI数据库下载原始数据，并确保Python环境和相关依赖库（如scikit-learn、scipy、numpy、matplotlib和pandas）已正确安装。数据集的文件夹结构清晰，包含了原始数据、预处理数据以及机器学习脚本和结果。用户可以根据需要调整脚本中的文件路径，并运行相应的机器学习算法进行帕金森病的语音分析。

背景与挑战

背景概述

帕金森语音数据集（Parkinson Speech Dataset with Multiple Types of Sound Recordings）由伊斯坦布尔大学的研究团队创建，旨在通过机器学习技术分析帕金森病（PD）患者的语音特征，以辅助疾病的诊断。该数据集收录了多种类型的语音记录，涵盖了不同语音任务下的患者数据，为帕金森病的早期检测提供了重要的研究基础。研究团队采用了逻辑回归、支持向量机（SVM）和K近邻（KNN）等机器学习方法，进一步验证了语音特征在疾病诊断中的潜力。该数据集通过UCI机器学习库公开，成为帕金森病语音分析领域的重要资源，推动了相关研究的深入发展。

当前挑战

该数据集的研究面临多重挑战。首先，帕金森病患者的语音特征具有高度复杂性，如何从多类型语音记录中提取有效的诊断特征是一个关键问题。其次，数据集的构建过程中，语音数据的采集和标注需要高度专业化的医学知识，确保数据的准确性和一致性。此外，机器学习模型的训练和验证需要处理数据不平衡问题，特别是健康样本与患者样本之间的比例差异。最后，数据集的共享和使用过程中，文件路径的硬编码问题可能导致脚本运行失败，增加了用户的使用难度。这些挑战不仅影响了数据集的广泛应用，也对研究结果的可靠性提出了更高的要求。

常用场景

经典使用场景

在医学研究领域，Parkinson Speech Dataset with Multiple Types of Sound Recordings数据集被广泛应用于通过语音分析来诊断帕金森病。研究者利用该数据集中的多种声音记录，结合机器学习技术如逻辑回归、支持向量机和K近邻算法，对患者的语音特征进行深入分析，从而识别出与帕金森病相关的语音模式。

衍生相关工作

基于该数据集的研究成果，已有多项相关经典工作被发表。例如，研究者利用该数据集开发了新的机器学习模型，这些模型在帕金森病的语音识别方面表现出色。此外，该数据集还激发了更多关于语音分析在医学诊断中应用的研究，推动了该领域的进一步发展。

数据集最近研究