Parkinsons Disease Speech Dataset

github2023-12-17 更新2024-05-31 收录

下载链接：

https://github.com/Aadi-J/Parkinsons-Detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来自牛津大学，包含195个实例，其中147个为帕金森病患者，48个为非患者。数据集包含22个特征，如频率、音高、声波的振幅/周期等，以及一个标签，1代表帕金森病，0代表非帕金森病。

This dataset originates from the University of Oxford and comprises 195 instances, including 147 patients with Parkinson's disease and 48 non-patients. The dataset encompasses 22 features, such as frequency, pitch, amplitude/period of sound waves, among others, along with a label where 1 denotes Parkinson's disease and 0 indicates non-Parkinson's disease.

创建时间：

2023-12-17

原始信息汇总

数据集概述

数据集名称

A Machine Learning Approach for the Diagnosis of Parkinsons Disease via Speech Analysis

研究时间

March 2022

数据集来源

University of Oxford

数据集组成

实例数量: 195
- 147 Parkinsons subjects
- 48 without Parkinsons
特征数量: 22
- 包括频率、音高、声波的振幅/周期等特征
标签: 1代表Parkinson’s, 0代表无Parkinson’s

使用算法

Logistic Regression (LR)
Linear Discriminant Analysis (LDA)
k Nearest Neighbors (KNN)
Decision Tree (DT)
Neural Network (NN)
Naive Bayes (NB)
Gradient Boost (GB)

工程目标

开发一个机器学习模型，用于Parkinson’s的诊断，至少达到90%的准确率和/或Matthews Correlation Coefficient至少为0.9。

数据分析结果

模型在数据集重新调整后，使用75-25的训练-测试分割表现最佳。K Nearest Neighbors和Neural Network达到了98%的最高准确率。

结论

该项目证明了机器学习在Parkinson’s诊断中相较于当前方法有显著改进，模型达到了98%的准确率，对于有效治疗至关重要。

搜集汇总

数据集介绍

构建方式

Parkinsons Disease Speech Dataset的构建基于牛津大学提供的语音数据，旨在通过机器学习方法提升帕金森病的诊断准确性。该数据集包含195个实例，其中147例为帕金森病患者，48例为健康对照组。数据集中提取了22个语音特征，如频率、音高、声波振幅/周期等，每个实例均标注为1（帕金森病）或0（无帕金森病）。数据集的构建过程包括数据采集、特征提取和标注，最终形成一个可用于机器学习模型训练和验证的结构化数据集。

使用方法

该数据集的使用方法主要包括数据预处理、模型训练和性能评估。首先，将数据集划分为训练集和验证集，通常采用75-25的比例。随后，使用多种机器学习算法（如逻辑回归、线性判别分析、K近邻、决策树、神经网络等）对训练集进行训练，并在验证集上评估模型性能。为了提升模型的泛化能力，可以对数据进行标准化或重新缩放处理。通过多次实验和交叉验证，最终选择表现最佳的模型。该数据集还可用于探索不同算法和参数组合对诊断准确性的影响，为帕金森病的早期诊断提供技术支持。

背景与挑战

背景概述

帕金森病语音数据集（Parkinsons Disease Speech Dataset）由牛津大学于2022年3月发布，旨在通过语音分析为帕金森病的早期诊断提供一种基于机器学习的方法。帕金森病是全球第二大神经退行性疾病，影响超过1000万人。当前的诊断方法在早期诊断（症状出现5年内）的准确率仅为53%。该数据集包含195个实例，其中147例为帕金森病患者，48例为非患者，涵盖了22个语音特征，如频率、音高和声波振幅/周期等。通过多种机器学习算法（如逻辑回归、神经网络等），研究团队成功将诊断准确率提升至98%，显著优于传统方法。这一成果为帕金森病的早期诊断和治疗提供了重要支持。

当前挑战

帕金森病语音数据集在构建和应用过程中面临多重挑战。首先，帕金森病的早期诊断本身具有复杂性，传统方法准确率较低，亟需更高效的诊断工具。其次，语音数据的采集和处理需要高精度的技术手段，以确保特征提取的准确性和一致性。此外，数据集的规模相对较小，可能限制了模型的泛化能力。在模型构建过程中，如何选择合适的算法和参数以实现高精度和高鲁棒性也是一个关键挑战。尽管研究团队通过多种机器学习算法取得了显著成果，但如何进一步优化模型性能、扩展数据集规模以及开发实际应用（如移动端诊断工具）仍是未来研究的重要方向。

常用场景

经典使用场景

Parkinsons Disease Speech Dataset 数据集在医学研究领域中被广泛应用于帕金森病的早期诊断。通过分析患者的语音特征，如频率、音调和声波振幅等，研究人员能够利用机器学习算法构建高精度的诊断模型。该数据集的使用场景主要集中在语音信号处理和医学诊断领域，尤其是在帕金森病的早期筛查中，语音分析提供了一种非侵入性且高效的诊断手段。

解决学术问题

该数据集解决了帕金森病早期诊断准确率低的问题。传统的诊断方法在早期阶段的准确率仅为53%，而通过该数据集训练的机器学习模型能够将诊断准确率提升至98%。这一突破不仅提高了诊断的可靠性，还为患者提供了更早的治疗机会，从而显著改善了疾病的预后。此外，该数据集还为研究帕金森病的语音特征提供了丰富的数据支持，推动了相关领域的学术进展。

实际应用

在实际应用中，Parkinsons Disease Speech Dataset 数据集已被用于开发基于语音的帕金森病诊断工具。例如，研究人员正在探索将其集成到移动应用程序中，使患者能够通过简单的语音测试进行自我筛查。这种应用不仅降低了诊断的门槛，还为偏远地区的患者提供了便捷的医疗服务。此外，该数据集还被用于优化现有的医疗诊断系统，提升其诊断效率和准确性。

数据集最近研究