Oxford Parkinsons Disease Detection Dataset

github2024-10-26 更新2024-10-27 收录

下载链接：

https://github.com/O-Memis/ParkinsonVoiceSVM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自31个人的语音测量数据，其中23人患有帕金森病（PD）。每个患者有6次录音，主要用于区分健康（0）和PD（1）的二元分类。数据集包括22个特征和一个标签，重点关注语音录音的各种声学特性，以检测和分析帕金森病。

This dataset comprises speech measurement data collected from 31 individuals, 23 of whom suffer from Parkinson's disease (PD). Each individual contributed 6 speech recordings, and the dataset is primarily utilized for binary classification tasks to distinguish healthy subjects (labeled as 0) from PD patients (labeled as 1). Consisting of 22 features and one target label, the dataset focuses on various acoustic properties of speech recordings for the detection and analysis of Parkinson's disease.

创建时间：

2024-10-26

原始信息汇总

ParkinsonVoiceSVM 数据集概述

数据集内容

文件:
- 代码文件: ParkinsonVoiceSVM.py
- 数据集文件: parkinsons.csv
- 模型文件: svm_parkinson.joblib
数据集来源:
- 数据集链接: Kaggle 数据集
- 数据集名称: Oxford Parkinsons Disease Detection Dataset
- 发布日期: 2008-06-26
- 引用信息: Max A. Little, Patrick E. McSharry, Eric J. Hunter, Lorraine O. Ramig (2008), Suitability of dysphonia measurements for telemonitoring of Parkinsons disease, IEEE Transactions on Biomedical Engineering

数据集描述

样本数量: 195
特征数量: 22 + 1 (标签)
目标: 二分类任务，区分健康个体 (0) 和帕金森病患者 (1)
特征来源: 语音录音的声学特性
数据集构成:
- 31名受试者，其中23名患有帕金森病，每名患者有6次录音

数据处理步骤

导入数据
探索性数据分析 (EDA)
预处理: 提供三种预处理选项，选择一种并比较结果
模型训练与调优
模型使用

代码组织

代码分为7个单元，基于5个步骤
每个单元使用 #%% 命令在 Spyder IDE 中分隔

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对31名受试者的语音记录进行分析，其中23名患有帕金森病，每位受试者有6次录音。通过要求受试者持续发出特定元音声音（如'ahhh'），并使用多维语音程序（MDVP）和高级数学分析方法，提取了22个声学特征。这些特征涵盖了语音信号的多种属性，旨在区分健康个体与帕金森病患者。

特点

该数据集的显著特点在于其专注于语音信号的声学特性，这些特性对于帕金森病的早期检测具有重要意义。数据集包含195个样本，每个样本有22个特征和一个标签（健康或帕金森病）。此外，数据集的构建方法确保了特征的高质量提取，从而提高了分类模型的准确性。

使用方法

使用该数据集时，用户应首先下载'parkinsons.csv'文件和'ParkinsonVoiceSVM.py'代码文件。代码分为五个主要步骤：数据导入、探索性数据分析、预处理、模型训练与调优以及模型使用。用户可以选择不同的预处理方法并比较结果，以优化模型性能。最终，用户可以通过加载预训练模型'svm_parkinson.joblib'进行系统集成。

背景与挑战

背景概述

牛津帕金森病检测数据集（Oxford Parkinson's Disease Detection Dataset）是由Max A. Little、Patrick E. McSharry、Eric J. Hunter和Lorraine O. Ramig于2008年创建的，旨在通过机器学习技术对帕金森病进行早期检测。该数据集的核心研究问题是通过分析语音特征来区分健康个体与帕金森病患者。数据集包含了来自31名受试者的语音测量数据，其中23名患有帕金森病，每名受试者有6次录音。这些录音通过多维语音程序（MDVP）和其他高级信号处理技术进行分析，提取出22个特征，用于二元分类任务。该数据集的创建对帕金森病的远程监控和早期诊断具有重要意义，推动了相关领域的研究进展。

当前挑战

牛津帕金森病检测数据集在构建和应用过程中面临多项挑战。首先，数据集的样本量相对较小，仅有195个实例，这可能导致模型训练时的过拟合问题。其次，语音特征的提取过程复杂，依赖于多维语音程序（MDVP）和高级数学分析，这些技术要求较高的专业知识和计算资源。此外，帕金森病的症状多样且个体差异大，如何在有限的特征中准确捕捉这些差异，是该数据集在实际应用中的主要挑战。最后，数据集的二元分类任务虽然明确，但在实际诊断中，如何处理早期症状不明显的病例，仍需进一步研究和改进。

常用场景

经典使用场景

在帕金森病检测领域，Oxford Parkinsons Disease Detection Dataset 以其独特的语音特征数据集而闻名。该数据集通过分析患者的语音记录，提取出22个关键的声学特征，如MDVP（多维语音程序）提取的特征，以及更复杂的数学分析如RPDE和DFA。这些特征被用于训练支持向量机（SVM）模型，以实现对帕金森病的高效分类。经典的使用场景包括通过患者的语音样本进行自动诊断，特别是在远程医疗环境中，这种非侵入性的检测方法显得尤为重要。

实际应用

在实际应用中，Oxford Parkinsons Disease Detection Dataset 被广泛用于开发和验证帕金森病的自动检测系统。这些系统可以集成到智能手机应用或远程医疗平台中，使得患者在家中就能进行自我监测。此外，医疗机构可以利用这些系统进行大规模筛查，早期发现潜在患者，从而提高治疗效果和患者生活质量。

衍生相关工作

基于该数据集，许多研究工作得以展开，包括但不限于改进的机器学习算法、特征选择方法以及多模态数据融合技术。例如，一些研究通过结合其他生物标志物如血液检测数据，进一步提高了诊断的准确性。此外，该数据集还激发了对语音信号处理技术的深入研究，推动了相关领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集