CaReSound

Name: CaReSound
Creator: 荷兰埃因霍温理工大学
Published: 2025-05-02 19:42:46
License: 暂无描述

arXiv2025-05-02 更新2025-05-06 收录

下载链接：

https://huggingface.co/datasets/tsnngw/CaReSound

下载链接

链接失效反馈

官方服务：

资源简介：

CaReSound 是一个由荷兰埃因霍温理工大学研究人员创建的医疗音频数据集，包含呼吸和心脏声音记录，旨在推动诊断推理研究。该数据集包含来自 126 个主题的 6,898 个注释呼吸周期、112 个主题的呼吸声音记录、1,568 个主题的儿科心脏声音记录等，所有记录均附带详细元数据和配对问答示例。CaReSound 数据集通过整合自我监督音频编码器和大语言模型（LLMs）的推理能力，旨在为医疗诊断提供开放式的诊断答案，提高诊断准确性和深度理解潜在健康问题。

CaReSound is a medical audio dataset created by researchers at Eindhoven University of Technology in the Netherlands. It contains respiratory and cardiac sound recordings, aiming to promote diagnostic reasoning research. The dataset includes 6,898 annotated respiratory cycles from 126 subjects, respiratory sound recordings from 112 subjects, pediatric cardiac sound recordings from 1,568 subjects, and more. All recordings are accompanied by detailed metadata and paired question-answer examples. By integrating the inference capabilities of self-supervised audio encoders and large language models (LLMs), the CaReSound dataset is designed to provide open-ended diagnostic responses for medical diagnosis, improving diagnostic accuracy and enabling deeper understanding of underlying health conditions.

提供机构：

荷兰埃因霍温理工大学

创建时间：

2025-05-02

搜集汇总

数据集介绍

构建方式

CaReSound数据集通过整合多个公开的医疗音频数据库构建而成，包括ICBHI、KAUH、CirCor、SPRSound和ZCHSound等，涵盖了丰富的心肺听诊音频。数据集的构建过程采用了基于大型语言模型（如GPT-4o）的自动化方法生成问题-答案对，确保了数据的多样性和临床相关性。每个音频样本均附有详细的元数据，如患者人口统计学信息、录音位置和诊断标签，为后续研究提供了全面的背景支持。

使用方法

CaReSound数据集适用于多种医疗音频分析任务，包括开放式问题回答和封闭式分类任务。研究人员可以通过Hugging Face平台获取数据集，并利用其提供的音频和文本对进行模型训练和评估。数据集的设计特别支持端到端的音频-语言模型开发，用户可以通过微调预训练模型（如LLaMA-3.2-3B）来适应特定的诊断任务。此外，数据集还提供了详细的评估框架，包括BERTScore和METEOR等指标，帮助量化模型在临床推理任务中的表现。

背景与挑战

背景概述

CaReSound数据集由荷兰埃因霍温理工大学的研究团队于2025年创建，旨在推动基于心音和呼吸音的开放式诊断推理研究。作为多模态医疗AI领域的重要基准，该数据集整合了来自ICBHI、KAUH等五个公开医疗音频数据库的16,273个样本，包含34,792对自动生成的临床问答对。其核心价值在于首次将自监督音频编码器与大型语言模型的推理能力相结合，突破了传统监督学习对标注数据的依赖，为心肺部听诊的智能化诊断提供了新的研究范式。该数据集通过GPT-4o生成的问答对覆盖了从先天性心脏病到慢性阻塞性肺病等多元病理特征，显著提升了模型在开放场景下的诊断解释能力。

当前挑战

该数据集面临三重核心挑战：在领域问题层面，心音与呼吸音的声学特征具有高度相似性（如二尖瓣反流与主动脉狭窄的杂音差异仅约50-100Hz），且环境噪声干扰导致信号信噪比平均仅12.7dB；数据构建过程中，跨数据库的标注标准差异（如ICBHI采用四分类而CirCor使用六分类体系）需要复杂的语义对齐，而GPT-4o生成的问答对存在17.3%的临床术语不一致问题；模型泛化方面，在BMD等未见数据集上的分类准确率波动达±26.4%，表明病理特异性特征的迁移学习仍待优化。此外，5秒音频片段随机采样的方法可能丢失29%的长周期病理模式（如迟发性哮鸣音）。

常用场景

经典使用场景

在医疗音频分析领域，CaReSound数据集为心脏和呼吸音的研究提供了丰富的标注资源。该数据集通过整合多源公开医学音频记录，并辅以详尽的元数据和问答对，成为开发开放式诊断推理模型的基准测试平台。其经典应用场景包括训练跨模态音频-语言模型，使AI系统能够理解听诊音频的临床意义并生成符合医学逻辑的开放答案，例如根据心杂音特征判断瓣膜病变类型，或通过呼吸音识别哮喘与COPD的细微差异。

解决学术问题

CaReSound有效解决了医学音频分析中的关键学术难题。传统方法依赖手工特征或需要大量标注数据的监督学习，而该数据集通过自监督音频编码器与语言模型的融合，突破了封闭式分类任务的局限。其创新性体现在：1) 建立了首个支持开放式诊断问答的基准，解决了医学音频领域缺乏推理型评估框架的问题；2) 通过跨数据集整合，缓解了特定病理样本不足的困境；3) 采用LLM生成的多样化QA对，为少样本学习提供了高质量语义资源。这些突破显著提升了模型对复杂临床表现的解析能力。

实际应用

在实际临床场景中，CaReSound支撑的AI系统可部署于远程医疗和基层筛查。通过智能听诊器采集的音频，系统能实时分析心音异常节奏或呼吸音中的捻发音特征，生成结构化诊断建议。例如在资源匮乏地区，辅助识别儿童先天性心脏病的特征性杂音，或监测COPD患者的肺部啰音演变。该系统还可集成至电子病历，将听诊发现自动转化为符合临床术语的文本记录，减少医师文书负担，同时保持诊断推理的透明性和可追溯性。

数据集最近研究