Parkinsons Disease Data Set

github2024-04-23 更新2024-05-31 收录

下载链接：

https://github.com/AmanBhagat23/Parkinsons_Disease_Detection_Model

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含语音样本，用于检测帕金森病。数据集中的语音样本包括受影响和健康人群的发音，主要关注发音中的元音发音。数据集包含来自56个受试者的195个录音，受试者被要求分别说出持续的元音a和o三次。数据集用于提取特征如抖动、闪烁、NHR、HNR等，用于训练支持向量机模型。

This dataset comprises voice samples utilized for the detection of Parkinson's disease. The voice samples within the dataset encompass pronunciations from both affected and healthy individuals, with a particular focus on vowel articulation. The dataset includes 195 recordings from 56 subjects, who were instructed to pronounce the sustained vowels 'a' and 'o' three times each. It is employed to extract features such as jitter, shimmer, NHR (Noise-to-Harmonics Ratio), HNR (Harmonics-to-Noise Ratio), among others, for the training of Support Vector Machine models.

创建时间：

2024-04-23

原始信息汇总

数据集概述

数据集来源

链接：https://www.kaggle.com/datasets/vikasukani/parkinsons-disease-data-set

数据集内容

数据集包含语音样本，主要用于检测帕金森病。
语音样本包括受影响和健康人群的发音，特别是持续发音的元音a和o。
数据集包含来自56个受试者的195个录音。

数据处理

使用Scikit-learn中的SVM特征进行信号预处理和特征提取。
提取的特征包括：jitter, shimmer, NHR, HNR, 平均和中位音高，脉冲和周期数，最小和最大周期，标准差，周期标准差，声音断裂的次数和程度。
通过粒子群优化(PSO)进行特征维度的降低。

模型应用

使用提取的特征训练支持向量机(SVM)分类器，用于帕金森病的检测。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对帕金森病患者和健康个体的语音样本进行采集与分析。研究团队从56名受试者中收集了195条语音记录，要求受试者重复发出元音'a'和'o'各三次。通过对这些语音信号进行预处理，提取了包括jitter、shimmer、NHR、HNR、平均和中间音高、脉冲和周期的数量、最小和最大周期、SD、周期的SD、声音中断的数量和程度等特征。这些特征通过粒子群优化（PSO）进行降维处理，以减少计算复杂性，并最终用于支持向量机（SVM）分类器的训练。

使用方法

该数据集主要用于训练和验证支持向量机（SVM）模型，以实现帕金森病的自动检测。使用者可以通过提取语音信号中的关键特征，如jitter、shimmer等，进行数据预处理和特征选择。随后，利用这些特征训练SVM模型，并通过测试集评估模型的性能。数据集的结构和特征提取方法为研究者提供了一个标准化的流程，便于在不同实验环境中复现和优化模型。

背景与挑战

背景概述

帕金森病数据集（Parkinsons Disease Data Set）聚焦于通过语音信号检测帕金森病，由Vikas Ukani在Kaggle平台上发布。该数据集的核心研究问题是通过分析语音特征，特别是发音中的元音部分，来区分帕金森病患者与健康个体。数据集包含了56名受试者的语音样本，其中48名被要求重复发出元音'a'和'o'各三次，共计195条录音。通过提取如颤音、闪烁、噪声与谐波比等语音特征，结合支持向量机（SVM）进行特征选择与分类，该数据集为帕金森病的早期诊断提供了新的研究方向，并对语音信号处理与疾病检测领域产生了积极影响。

当前挑战

帕金森病数据集在构建与应用过程中面临多项挑战。首先，语音信号的采集与预处理需要高精度的技术支持，以确保特征提取的准确性。其次，数据集的样本量相对较小，可能影响模型的泛化能力。此外，帕金森病患者的语音特征因病情进展程度不同而异，如何在不同阶段准确分类是一大难题。最后，特征选择与降维过程中，如何有效减少计算复杂度并保持模型性能，是该数据集在实际应用中需要解决的关键问题。

常用场景

经典使用场景

在帕金森病研究领域，Parkinsons Disease Data Set 数据集的经典使用场景主要集中在通过语音信号分析来辅助诊断帕金森病。该数据集包含了来自56名受试者的语音样本，特别是持续发音的元音‘a’和‘o’，这些样本被用于提取关键特征，如颤动（jitter）、闪烁（shimmer）、噪声与谐波比（NHR, HNR）等。这些特征通过支持向量机（SVM）进行分类，从而实现对帕金森病的早期检测和诊断。

解决学术问题

该数据集解决了帕金森病早期诊断中的一个关键学术问题，即如何通过非侵入性手段准确识别疾病。传统的诊断方法依赖于临床评估和患者自述，而该数据集通过语音信号的特征提取，提供了一种客观且可量化的诊断工具。这不仅提高了诊断的准确性，还为帕金森病的早期干预和治疗提供了科学依据，具有重要的临床和科研意义。

实际应用

在实际应用中，Parkinsons Disease Data Set 数据集已被广泛应用于开发便携式诊断工具和移动应用程序。这些工具通过分析用户的语音特征，能够在早期阶段识别帕金森病的迹象，从而帮助医生进行更早的干预。此外，该数据集还被用于远程医疗系统，使得患者无需频繁前往医院，即可通过简单的语音测试获得初步诊断，极大地提高了医疗服务的可及性和效率。

数据集最近研究