Oxford Parkinsons Disease Detection Dataset

github2024-08-03 更新2024-08-05 收录

下载链接：

https://github.com/Prerana-03/Parkinson-disease-detection

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自31名个体的生物医学语音测量数据，其中23名被诊断患有帕金森病（PD）。每个数据行对应一个语音记录，列代表不同的语音测量。主要目标变量是“状态”，0表示健康，1表示PD。

This dataset contains biomedical voice measurement data from 31 individuals, 23 of whom have been diagnosed with Parkinson's disease (PD). Each data row corresponds to a single voice recording, while the columns represent different voice measurement features. The primary target variable is "status", where 0 indicates healthy individuals and 1 indicates those with PD.

创建时间：

2024-08-02

原始信息汇总

Parkinsons Disease Detection Using Logistic Regression

概述

本项目使用逻辑回归模型，通过语音测量数据诊断帕金森病。数据集来自牛津帕金森病检测数据集。目标是根据各种语音属性区分健康个体和帕金森病患者。

数据集

数据集包含31名个体的生物医学语音测量数据，其中23名被诊断为帕金森病（PD）。数据集中的每一行对应一个语音记录，列代表不同的语音测量。主要目标变量是“status”，0表示健康，1表示PD。

数据来源: UCI机器学习库
数据格式: CSV

特征

name: 受试者姓名和录音编号
MDVP:Fo(Hz): 平均声带基本频率
MDVP:Fhi(Hz): 最大声带基本频率
MDVP:Flo(Hz): 最小声带基本频率
MDVP:Jitter(%), MDVP:Jitter(Abs), MDVP:RAP, MDVP:PPQ, Jitter:DDP: 基本频率变化的度量
MDVP:Shimmer, MDVP:Shimmer(dB), Shimmer:APQ3, Shimmer:APQ5, MDVP:APQ, Shimmer:DDA: 振幅变化的度量
NHR, HNR: 声音中噪声与音调成分的比率
status: 受试者的健康状态（1表示帕金森病，0表示健康）
RPDE, D2: 非线性动力学复杂性度量
DFA: 信号分形缩放指数
spread1, spread2, PPE: 基本频率变化的非线性度量

搜集汇总

数据集介绍

构建方式

该数据集的构建基于从31名个体收集的生物医学语音测量数据，其中23名被诊断为帕金森病（PD）。数据集的每一行对应一个语音记录，列则代表不同的语音测量指标。主要目标变量是'status'，其中0表示健康，1表示PD。数据集通过详细的语音特征分析，如平均和极值的声带基础频率、基础频率的变化度量、振幅变化度量、噪声与音调成分的比率，以及非线性动力学复杂性度量等，来区分健康个体与帕金森病患者。

特点

该数据集的主要特点在于其专注于语音测量，通过多维度的语音特征来诊断帕金森病。这些特征包括基础频率的平均值、最大值和最小值，以及这些频率的变化度量和振幅变化度量。此外，数据集还包含了噪声与音调成分的比率、非线性动力学复杂性度量和信号分形缩放指数等高级特征。这些特征的综合分析为帕金森病的早期诊断提供了科学依据。

使用方法

使用该数据集时，首先需确保安装了必要的Python库，如numpy、pandas、scikit-learn、matplotlib和seaborn。通过加载CSV格式的数据集，用户可以利用这些语音特征训练逻辑回归模型，以区分健康个体和帕金森病患者。模型的训练和验证过程可以通过scikit-learn库实现，同时利用matplotlib和seaborn进行数据可视化，以更好地理解和分析模型的性能。

背景与挑战

背景概述

牛津帕金森病检测数据集（Oxford Parkinsons Disease Detection Dataset）是由牛津大学相关研究人员创建，旨在通过语音测量数据诊断帕金森病。该数据集的核心研究问题是通过分析语音特征，区分健康个体与帕金森病患者。数据集包含了31名个体的生物医学语音测量数据，其中23名被诊断为帕金森病患者。这一数据集的创建对于帕金森病的早期诊断和治疗具有重要意义，推动了基于语音分析的疾病检测技术的发展。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，如何从有限的语音样本中提取出能够有效区分帕金森病患者的特征。其次，数据集的样本量相对较小，可能导致模型训练时的过拟合问题。此外，语音数据的采集和处理过程中可能引入的噪声和误差，也是需要克服的难题。这些挑战不仅影响了模型的准确性和可靠性，也对后续研究提出了更高的要求。

常用场景

经典使用场景

在医学领域，Oxford Parkinsons Disease Detection Dataset 常用于开发和验证基于语音特征的帕金森病诊断模型。通过分析患者的语音数据，研究人员可以提取出如平均和极值声带基础频率、频率和振幅的变化率等特征，进而构建逻辑回归模型以区分健康个体与帕金森病患者。这一经典场景不仅展示了数据集在疾病早期诊断中的潜力，也为个性化医疗提供了新的视角。

实际应用

在实际应用中，Oxford Parkinsons Disease Detection Dataset 已被用于开发便携式诊断工具，这些工具可以通过智能手机或其他便携设备收集和分析患者的语音数据，从而实现疾病的早期预警和监测。这种应用不仅提高了诊断的便捷性和可及性，还为远程医疗和家庭护理提供了新的可能性，极大地改善了患者的生活质量。

衍生相关工作

基于该数据集，研究者们进一步开发了多种机器学习模型，如支持向量机、随机森林和深度学习网络，以提高诊断的准确性和鲁棒性。此外，该数据集还激发了关于语音信号处理和特征提取方法的研究，推动了语音分析技术在医学领域的广泛应用。这些衍生工作不仅丰富了帕金森病诊断的研究工具箱，也为其他神经退行性疾病的诊断提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集