临床音频数据集

Name: 临床音频数据集
Creator: 巴尔格里克大学医院
Published: 2022-06-24 16:21:35
License: 暂无描述

arXiv2022-06-24 更新2024-06-21 收录

下载链接：

https://rocs.balgrist.ch/en/open-access/

下载链接

链接失效反馈

官方服务：

资源简介：

临床音频数据集是由巴尔格里克大学医院创建，包含568个录音，记录了在实际手术室中进行的五次全髋关节置换手术（THA）中的典型声音。数据集涵盖了手术的不同阶段，如吸引、凝固、锯切、调整等。创建过程中，使用空气传播的枪式麦克风和手术室灯光摄像头进行音频和视频捕捉，以辅助标签过程。该数据集旨在通过提供高质量的临床音频数据，增强基于学习的医疗支持系统的鲁棒性和泛化能力，特别适用于安全关键的医疗应用。

The clinical audio dataset was created by Balgrist University Hospital. It includes 568 audio recordings capturing typical sounds from five total hip arthroplasty (THA) procedures performed in actual operating rooms. The dataset covers various stages of the surgery, such as suction, coagulation, sawing, adjustment and other relevant steps. During its development, airborne shotgun microphones and operating room light-mounted cameras were utilized for audio and video capture to assist the labeling workflow. This dataset aims to enhance the robustness and generalization capability of learning-based medical support systems by providing high-quality clinical audio data, and is particularly suitable for safety-critical medical applications.

提供机构：

巴尔格里克大学医院

创建时间：

2022-03-22

搜集汇总

数据集介绍

构建方式

在临床音频分析领域，数据稀缺性常制约机器学习模型的性能。该数据集构建于真实全髋关节置换术（THA）的手术环境中，通过指向手术区域的机载麦克风（Røde NTG2）以44.1 kHz采样率采集音频信号，并辅以手术灯摄像头视频辅助标注。研究人员从五例THA手术录音中手动切割出非重叠类别的音频片段，排除人员对话干扰，最终形成包含六类手术动作（抽吸、凝血、锯骨、扩髓、植入、调整）的568条录音，时长介于1至31秒之间，确保了数据与临床实际工作流程的高度吻合。

特点

该数据集显著特点在于其高度真实的临床环境来源与精细的类别结构。音频样本涵盖THA手术典型阶段，各类别声学特征鲜明，如植入类的锤击声与调整类的螺丝刀操作声在频谱上呈现可区分模式。数据以原始波形和64×64对数梅尔频谱图两种形式提供，后者通过滑动窗口非重叠分割生成，共包含3597个频谱样本，为深度学习模型提供了密集且低维的特征表示。数据分布呈现天然不均衡性，例如抽吸类样本多达222个，而锯骨类仅21个，这反映了真实手术中动作频率差异，为研究不平衡数据增强方法提供了理想场景。

使用方法

该数据集主要用于评估临床音频分类模型及数据增强算法的性能。典型使用流程包括：首先将原始波形转换为对数梅尔频谱图作为输入特征；随后可采用五折交叉验证方案，在原始录音级别划分训练测试集以确保条件一致性；研究者可基于ResNet-18等架构训练分类器，对比经典音频增强（如噪声添加、音高偏移）与生成式增强方法的效果。数据集特别适用于验证条件Wasserstein生成对抗网络（cWGAN-GP）的增强能力，既可实现样本数量倍增，也能用于类别平衡处理，最终通过宏平均F1分数等指标量化分类性能提升。

背景与挑战

背景概述

临床音频数据集作为医学声学感知领域的重要资源，其构建源于对手术室内实时音频信号分析的迫切需求。该数据集由慕尼黑工业大学与苏黎世大学医院的研究团队于2022年联合创建，聚焦于全髋关节置换术中的手术动作声音分类问题。通过采集真实手术环境中的吸吮、凝血、锯骨等六类典型音频信号，该数据集为基于深度学习的术中阶段识别与工作流分析提供了关键数据支撑，推动了智能外科辅助系统的发展。

当前挑战

该数据集旨在解决手术音频自动分类的挑战，其核心难点在于临床环境中声音信号的复杂性与类间相似性，如不同锤击工具声音的细微差异。在构建过程中，研究人员面临多重挑战：首先，手术室背景噪声与人员对话干扰使得纯净音频样本获取困难；其次，数据标注需依赖同步视频辅助，且需避免类别重叠，增加了人工标注成本；此外，原始数据存在严重类别不平衡问题，如锯骨类样本仅21条，而吸吮类达222条，影响了模型训练的均衡性。

常用场景

经典使用场景

在临床音频分析领域，该数据集被广泛应用于手术音频信号的分类与识别研究。通过记录全髋关节置换术中的典型声音，如抽吸、凝血、锯骨等，数据集为机器学习模型提供了丰富的训练样本。其经典使用场景在于支持基于深度学习的音频分类任务，例如利用ResNet-18等架构进行手术阶段或动作的自动识别，从而推动智能手术辅助系统的发展。

解决学术问题

该数据集有效解决了临床音频数据稀缺与质量不均的学术难题。在医疗环境中，获取大规模、标注精确的音频数据成本高昂且伦理限制严格。通过引入条件生成对抗网络进行数据增强，该研究提升了模型在有限数据下的泛化能力与鲁棒性。其意义在于突破了传统信号处理方法的局限，为安全关键的医疗应用提供了更可靠的算法基础，促进了音频感知技术在介入引导与诊断支持中的深入应用。

衍生相关工作

该数据集衍生了一系列基于生成对抗网络的音频数据增强研究。例如，Hu等人利用GAN合成语音数据的对数梅尔滤波器组系数，Madhu等人针对环境声音分类训练了类别特定的GAN模型。此外，Chatziagapi等人应用平衡GAN处理不平衡语音数据集，而Sheng与Jayalakshmy则分别探索了条件GAN在语音与呼吸音频信号增强中的应用。这些工作共同丰富了临床音频数据的合成方法，为跨领域音频处理提供了参考框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集