Parkinson Speech Dataset with Multiple Types of Sound Recordings
收藏github2022-10-08 更新2024-05-31 收录
下载链接:
https://github.com/shusinthebox/Classification-Analysis-Of-Parkinson-Speech-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
本研究旨在通过应用机器学习技术分析和诊断帕金森病(PD)患者的语音数据集。特别关注应用逻辑回归、支持向量机(SVM)和K-最近邻(KNN)的变体。该研究基于伊斯坦布尔大学先前的研究,使用相同的数据集,这些数据集来自UCI数据库。
This study aims to analyze and diagnose the speech datasets of Parkinson's disease (PD) patients by applying machine learning techniques, with a particular focus on the variants of logistic regression, support vector machines (SVM), and K-nearest neighbors (KNN). The research is based on previous studies conducted at Istanbul University, utilizing the same datasets sourced from the UCI database.
创建时间:
2015-11-13
原始信息汇总
数据集概述
数据集名称
Parkinson Speech Dataset with Multiple Types of Sound Recordings
数据集来源
研究目的
分析和诊断帕金森病(PD)患者,通过应用机器学习技术(ML)于语音数据集。
应用的机器学习技术
- 逻辑回归(Logistic Regression)
- 支持向量机(SVM)
- K-最近邻(KNN)
数据集结构
- raw_data: 包含从UCI数据库获取的原始.txt文件。
- sloo_data: 包含用于SLOO验证方案的数据。
- references: 包含应用ML技术于原始数据集的原始研究论文。
- presentation: 包含研究项目的演示文稿。
- src: 包含用于本研究的ML技术的脚本、结果和图表。
- loso: 包含执行LOSO验证的ML技术的实现和结果。
- sloo: 包含SLOO验证的实现。
- best_voice_samples: 包含从26个样本中选择最佳3个语音样本的实现。
数据集下载
搜集汇总
数据集介绍

构建方式
该数据集源自伊斯坦布尔大学的一项研究,旨在通过机器学习技术分析帕金森病患者的语音数据。数据集从UCI机器学习库中获取,包含了多种类型的语音记录,涵盖了帕金森病患者和健康对照组的语音样本。数据集的构建过程包括从原始语音记录中提取特征,并通过机器学习算法进行分类分析。
特点
该数据集的特点在于其多样化的语音记录类型,涵盖了帕金森病患者在不同语音任务中的表现。数据集不仅包含原始的语音文件,还提供了经过预处理的文本数据,便于直接应用于机器学习模型的训练和验证。此外,数据集还支持多种验证方案,如留一法(LOO)和留一受试者法(LOSO),为研究者提供了灵活的验证选择。
使用方法
使用该数据集时,首先需要从UCI数据库下载原始数据,并确保Python环境和相关依赖库(如scikit-learn、scipy、numpy、matplotlib和pandas)已正确安装。数据集的文件夹结构清晰,包含了原始数据、预处理数据以及机器学习脚本和结果。用户可以根据需要调整脚本中的文件路径,并运行相应的机器学习算法进行帕金森病的语音分析。
背景与挑战
背景概述
帕金森语音数据集(Parkinson Speech Dataset with Multiple Types of Sound Recordings)由伊斯坦布尔大学的研究团队创建,旨在通过机器学习技术分析帕金森病(PD)患者的语音特征,以辅助疾病的诊断。该数据集收录了多种类型的语音记录,涵盖了不同语音任务下的患者数据,为帕金森病的早期检测提供了重要的研究基础。研究团队采用了逻辑回归、支持向量机(SVM)和K近邻(KNN)等机器学习方法,进一步验证了语音特征在疾病诊断中的潜力。该数据集通过UCI机器学习库公开,成为帕金森病语音分析领域的重要资源,推动了相关研究的深入发展。
当前挑战
该数据集的研究面临多重挑战。首先,帕金森病患者的语音特征具有高度复杂性,如何从多类型语音记录中提取有效的诊断特征是一个关键问题。其次,数据集的构建过程中,语音数据的采集和标注需要高度专业化的医学知识,确保数据的准确性和一致性。此外,机器学习模型的训练和验证需要处理数据不平衡问题,特别是健康样本与患者样本之间的比例差异。最后,数据集的共享和使用过程中,文件路径的硬编码问题可能导致脚本运行失败,增加了用户的使用难度。这些挑战不仅影响了数据集的广泛应用,也对研究结果的可靠性提出了更高的要求。
常用场景
经典使用场景
在医学研究领域,Parkinson Speech Dataset with Multiple Types of Sound Recordings数据集被广泛应用于通过语音分析来诊断帕金森病。研究者利用该数据集中的多种声音记录,结合机器学习技术如逻辑回归、支持向量机和K近邻算法,对患者的语音特征进行深入分析,从而识别出与帕金森病相关的语音模式。
衍生相关工作
基于该数据集的研究成果,已有多项相关经典工作被发表。例如,研究者利用该数据集开发了新的机器学习模型,这些模型在帕金森病的语音识别方面表现出色。此外,该数据集还激发了更多关于语音分析在医学诊断中应用的研究,推动了该领域的进一步发展。
数据集最近研究
最新研究方向
在帕金森病(PD)的早期诊断领域,语音分析作为一种非侵入性、低成本的方法,近年来受到广泛关注。Parkinson Speech Dataset with Multiple Types of Sound Recordings数据集通过多种类型的语音记录,为机器学习算法提供了丰富的特征空间。当前研究主要集中在利用逻辑回归、支持向量机(SVM)和K近邻(KNN)等经典机器学习模型,结合留一法(LOO)和留一受试者法(LOSO)验证方案,探索语音特征与帕金森病之间的关联。这些研究不仅推动了帕金森病的早期筛查技术发展,还为个性化医疗和远程诊断提供了新的可能性。随着深度学习技术的进步,未来研究可能会进一步结合语音信号的时序特征,提升诊断的准确性和鲁棒性。
以上内容由遇见数据集搜集并总结生成



