Biomedical Voice Measurements dataset

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/Alireza-Rahimi-3000/Speech-Data-Analysis-Methodology-to-Diagnose-Parkinson-Using-Various-ML-Algorithms

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由牛津大学的Athanasios Tsanas和Max Little创建，与美国10家医疗中心和Intel公司合作，用于远程症状进展监测的六个月试验。数据集包含42名早期帕金森病患者的生物医学语音测量，包括语音记录、年龄、性别、时间间隔、运动UPDRS、总UPDRS和16种生物医学语音测量。主要目的是从16种语音测量中预测运动和总UPDRS评分。

This dataset was created by Athanasios Tsanas and Max Little from the University of Oxford, in collaboration with 10 medical centers in the United States and Intel Corporation, for a six-month trial on remote symptom progression monitoring. The dataset includes biomedical voice measurements from 42 early-stage Parkinson's disease patients, encompassing voice recordings, age, gender, time intervals, motor UPDRS, total UPDRS, and 16 types of biomedical voice measurements. The primary objective is to predict motor and total UPDRS scores from these 16 voice measurements.

创建时间：

2022-08-01

原始信息汇总

数据集概述

数据集来源与创建

创建者：Athanasios Tsanas 和 Max Little
合作机构：牛津大学、美国10家医疗中心、Intel Corporation
目的：用于远程症状监测的六个月试验

数据集内容

样本数量：5,875条语音记录
参与者：42名早期帕金森病患者
数据字段：
- 受试者编号
- 受试者年龄
- 受试者性别
- 从基线招募日期起的时间间隔
- 运动UPDRS评分
- 总UPDRS评分
- 16项生物医学语音测量

数据集用途

主要目标：预测运动UPDRS和总UPDRS评分
数据格式：ASCII CSV格式

数据预处理

数据清洗：无缺失值
异常值检测：进行了相关性分析和异常值检查

数据分析方法

维度缩减：使用多维缩放（MDS）和随机森林进行特征选择
因子分析：进行了探索性因子分析（EFA）和确认性因子分析（CFA）

分析结果

多维缩放（MDS）：年龄和性别对数据集有显著影响
随机森林：识别了多个重要预测因子，如年龄、DFA、Jitter.Abs.等
因子分析：识别了频率和幅度两个主要因子，分别对应不同的语音测量变量

结论

该数据集为研究帕金森病的非侵入性诊断提供了丰富的语音生物医学测量数据，通过多种分析方法，如MDS、随机森林和因子分析，有效地识别了影响疾病预测的关键因素。

搜集汇总

数据集介绍

构建方式

生物医学语音测量数据集由牛津大学的Athanasios Tsanas和Max Little与美国10家医疗中心及英特尔公司合作构建。该数据集收集了42名早期帕金森病患者在家中使用远程监控设备自动记录的语音信号，涵盖了六个月的病情监测。数据集包含患者的编号、年龄、性别、时间间隔、运动UPDRS评分、总UPDRS评分以及16项生物医学语音测量指标，共计5,875条语音记录。每条记录对应一次语音采集，旨在通过语音特征预测患者的运动和总UPDRS评分。

特点

该数据集的显著特点在于其非侵入性监测方式，通过语音信号分析患者的病情进展。数据集包含多样化的语音测量指标，涵盖频率、振幅等多个维度，且各指标之间存在高度相关性，如Jitter与Shimmer变量。此外，数据集经过严格的异常值检测和维度缩减处理，确保了数据的质量和分析的有效性。

使用方法

该数据集适用于通过机器学习算法预测帕金森病患者的病情进展。用户可通过分析16项语音测量指标，结合患者的年龄、性别等信息，预测其运动和总UPDRS评分。数据集以ASCII CSV格式存储，便于导入和处理。用户可利用随机森林、多维尺度分析等技术进行特征选择和模型构建，进一步探索语音特征与病情进展之间的关系。

背景与挑战

背景概述

生物医学语音测量数据集（Biomedical Voice Measurements dataset）由牛津大学的Athanasios Tsanas和Max Little领导的研究团队创建，并与美国10家医疗中心及英特尔公司合作开发。该数据集旨在通过语音数据分析，为帕金森病的非侵入性诊断提供支持。数据集包含了42名早期帕金森病患者在六个月远程监测试验中的语音测量数据，共计5,875条记录。每条记录包含患者的编号、年龄、性别、时间间隔、UPDRS评分及16项生物医学语音测量指标。该数据集的核心研究问题是通过语音测量预测患者的UPDRS评分，进而评估帕金森病的进展情况。

当前挑战

该数据集在构建过程中面临多项挑战。首先，语音数据的采集是在患者家中自动完成的，这可能导致数据质量的不一致性。其次，数据集中存在高度相关的变量，如Jitter和Shimmer，这增加了数据处理的复杂性。此外，尽管数据集没有缺失值，但仍需进行异常值检测和数据清洗，以确保分析的准确性。在数据分析过程中，研究人员还需应对高维数据的降维问题，并通过多维尺度分析和随机森林算法进行特征选择，以提高模型的解释性和预测能力。

常用场景

经典使用场景

生物医学语音测量数据集（Biomedical Voice Measurements dataset）最经典的应用场景在于通过分析帕金森病患者的语音特征，辅助疾病的非侵入性诊断。该数据集包含了42名早期帕金森病患者的语音测量数据，涵盖了多种语音参数，如颤音（jitter）、闪烁（shimmer）等，这些参数能够反映患者的语音障碍，如音量减小、音调单一等。通过机器学习算法，研究人员可以利用这些语音特征预测患者的UPDRS评分，从而评估疾病的严重程度。

解决学术问题

该数据集解决了帕金森病诊断中的一个重要学术问题，即如何通过非侵入性手段评估患者的病情进展。传统的帕金森病诊断依赖于临床医生的主观评估，而该数据集通过量化语音特征，提供了一种客观的评估方法。这不仅有助于提高诊断的准确性，还为远程监控患者病情提供了可能性，推动了帕金森病研究领域的发展。

衍生相关工作

基于该数据集，许多相关研究工作得以展开。例如，研究人员通过多维尺度分析（MDS）和随机森林算法，进一步探索了语音特征与疾病进展之间的关系，揭示了不同特征对疾病严重程度的贡献。此外，探索性因子分析（EFA）和验证性因子分析（CFA）也被应用于该数据集，以识别和验证影响帕金森病病情的关键语音特征，为后续的临床应用提供了理论支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集