five

NeuroVoz

收藏
arXiv2024-03-06 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.10777656
下载链接
链接失效反馈
官方服务:
资源简介:
NeuroVoz是由马德里理工大学电信工程高等技术学院和医院Gregorio Marañón的神经学和耳鼻喉科部门合作创建的,旨在通过语音分析推进帕金森病(PD)的诊断。该数据集包含108名母语为卡斯蒂利亚西班牙语的参与者,包括55名健康对照和53名PD患者,所有参与者均在药物优化状态下进行了录音。数据集包含多种语音任务,如西班牙语五个元音的持续发音、diadochokinetic测试、16个听后重复句子和自由独白。NeuroVoz通过专家手动转录听后重复任务和使用Whisper进行自动独白转录,强调准确性和可靠性,是目前最完整的帕金森病语音公共语料库,也是首个卡斯蒂利亚西班牙语的此类数据集。该数据集为科学探索PD对语音的影响提供了大量资源,已支持多项研究,实现了PD语音模式识别的基准准确率达到89%,表明PD导致的语音改变显著。

NeuroVoz was developed through a collaboration between the Higher Technical School of Telecommunications Engineering of the Polytechnic University of Madrid and the Neurology and Otolaryngology Departments of Hospital Gregorio Marañón, aiming to advance Parkinson’s disease (PD) diagnosis via speech analysis. This dataset includes 108 native Castilian Spanish-speaking participants, comprising 55 healthy controls and 53 PD patients, all recorded under optimized medication status. The dataset contains multiple speech tasks, such as sustained pronunciations of the five Spanish vowels, diadochokinetic tests, 16 post-listening repeated sentences, and free monologues. Emphasizing accuracy and reliability, NeuroVoz adopted manual transcription of post-listening repetition tasks by experts and automatic transcription of monologues via Whisper. It is currently the most comprehensive public speech corpus for Parkinson’s disease, as well as the first of its kind in Castilian Spanish. This dataset provides a valuable resource for scientific exploration of PD’s impact on speech, has supported multiple studies, and achieved a benchmark accuracy of 89% in PD speech pattern recognition, indicating that speech changes caused by PD are significant.
提供机构:
马德里理工大学电信工程高等技术学院
创建时间:
2024-03-05
搜集汇总
数据集介绍
main_image_url
构建方式
在帕金森病语音分析领域,公开多语言数据集的匮乏长期制约着研究的可重复性与深入探索。NeuroVoz数据集的构建旨在填补这一空白,其采集过程严格遵循临床科研规范。研究团队与马德里理工大学及格雷戈里奥·马拉尼翁医院合作,招募了108名卡斯蒂利亚西班牙语母语者,其中包含55名健康对照者和53名经临床确诊的帕金森病患者,所有患者均处于药物优化状态。录音协议涵盖四大类语音任务:西班牙语五个元音的持续发声、/pa-ta-ka/序列的轮替运动测试、16句听复述语句以及基于图像描述的自发性独白。为确保数据质量,听复述任务由专家进行人工转写,独白部分则采用Whisper工具进行自动转写,最终形成总计2,903条音频的高质量语料库。
特点
NeuroVoz作为首个完全公开的卡斯蒂利亚西班牙语帕金森病语音语料库,其显著特点在于内容的全面性与设计的系统性。数据集不仅平衡了健康与患病人群在年龄、性别上的分布,更通过多样化的语音任务捕获了帕金森病可能影响的多个言语维度:持续元音聚焦于发声功能,轮替运动测试评估构音能力,听复述语句涵盖了从腭咽闭合到语调情感的不同语言学目标,而自发性独白则提供了自然语境下的言语流畅性样本。此外,数据集附带了丰富的元数据,包括人口统计学信息、临床评估量表(如UPDRS和H-Y分期)、症状二进制标注以及基于AVCA-ByO工具包提取的声学特征,为多角度、深层次的病理语音分析奠定了坚实基础。
使用方法
该数据集遵循FAIR原则公开于Zenodo存储库,其结构清晰,便于研究者访问与使用。数据主要分为音频文件、转写文本、元数据及预计算声学特征四个部分。音频文件按统一命名规则组织,清晰标识了受试者健康状况、任务类型及个体编号。研究者可利用提供的Python脚本进行初步数据管理与分析,例如通过‘simple_predictors_af.py’脚本加载并处理声学特征,进而训练随机森林或逻辑回归分类模型;或使用‘simple_predictors_audio.py’脚本对原始音频进行预处理、计算梅尔频谱图,并利用预训练的ResNet-18模型进行深度学习分类实验。这些工具旨在降低使用门槛,支持研究者在帕金森病语音检测、严重程度评估及跨语料库泛化性研究等领域开展创新工作。
背景与挑战
背景概述
在神经退行性疾病研究领域,帕金森病(PD)的早期诊断与监测一直是临床实践中的核心挑战。传统诊断方法依赖于运动症状评估,过程耗时且存在主观性,而语音作为一项精细运动功能,其受损是PD的早期常见表现,为开发客观、非侵入性的生物标志物提供了独特窗口。为应对公开、多语言PD语音数据集的匮乏,马德里理工大学与格雷戈里奥·马拉尼翁医院的研究团队于2024年联合发布了NeuroVoz数据集。该数据集收录了108名卡斯蒂利亚西班牙语母语者的语音样本,包含53名PD患者与55名健康对照,涵盖了持续元音发声、听复述任务、言语交替运动速率测试及自由独白等多种语音任务,并辅以专家手动转录与自动化处理。NeuroVoz的建立不仅填补了西班牙语PD语音资源的空白,其89%的基准分类准确率也验证了语音分析在PD检测中的巨大潜力,为基于机器学习的神经退行性疾病诊断研究奠定了关键数据基础。
当前挑战
NeuroVoz数据集所应对的核心领域挑战在于帕金森病语音模式的精准识别与跨语言泛化分析。具体而言,PD引起的语音障碍具有高度异质性,涵盖发声、构音与韵律等多个维度,且易与年龄相关变化或其他神经疾病症状混淆,这要求模型能够从复杂的声学特征中提取稳定、特异性的病理模式。在数据集构建层面,研究者面临多重挑战:其一,需设计兼顾生态效度与实验控制的语音协议,以捕捉自然状态下的病理特征,同时避免认知与视觉因素对老年参与者的干扰;其二,确保数据标注的准确性与一致性,尤其在处理构音不清的自发言语时,手动转录需克服背景噪音与发音变异的影响;其三,实现临床元数据与语音记录的标准化整合,以支持多模态分析。此外,如何将基于单一语言(卡斯蒂利亚西班牙语)训练的模型推广至其他语言与文化背景,进行真正的语料库无关分析,仍是该领域亟待突破的前沿难题。
常用场景
经典使用场景
在神经退行性疾病研究领域,语音分析作为非侵入性生物标志物正受到广泛关注。NeuroVoz数据集的经典使用场景聚焦于帕金森病(PD)的自动语音检测与评估。研究者通过提取该数据集中包含的持续元音、听重复语句、快速交替运动测试和自由独白等多样化语音任务的特征,构建机器学习模型以区分健康对照组与帕金森病患者。其核心价值在于为基于卡斯蒂利亚西班牙语的帕金森语音研究提供了首个完整、公开的基准数据集,使得研究者能够系统性地探索疾病对发音、发声和韵律等多维度语音特征的影响。
解决学术问题
NeuroVoz数据集有效解决了帕金森病研究领域若干关键学术问题。首要贡献在于填补了西班牙语,特别是卡斯蒂利亚西班牙语公开帕金森语音数据集的空白,缓解了该语言背景下研究可复现性和数据多样性的匮乏。其次,数据集通过纳入患者在药物优化状态下的语音样本,为研究药物治疗对语音症状的影响提供了标准化素材。更为重要的是,它支持了对帕金森病特异性语音改变(如发声困难、构音障碍、韵律失调)的定量分析,使得研究者能够深入探究疾病进展与语音声学参数(如基频扰动、谐噪比、元音空间面积)之间的关联,推动了基于客观声学指标的疾病早期筛查与严重程度评估方法的发展。
衍生相关工作
NeuroVoz数据集自发布以来,已衍生出一系列具有影响力的经典研究工作,逐步确立了其在领域内的基准地位。早期研究如Moro等人(2017, 2018)的工作,分别利用声学标志物与高斯混合模型-通用背景模型混合分类、以及结合说话人识别与音位蒸馏技术,实现了超过80%的帕金森语音识别准确率。后续研究进一步深化,Moro等人(2019)专注于发声特征分析,将准确率提升至89%;而Arias等人(2020)则探索了使用密集神经网络和迁移学习来预测统一帕金森病评定量表评分。近期,Ibarra等人(2023)采用领域对抗训练方法提升模型泛化能力,在跨语料库场景下取得了83%的准确率。这些研究共同构建了一个从特征工程到深度学习、从单语料库验证到跨语料库泛化的完整方法论演进脉络。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务