icbhi
收藏Hugging Face2025-10-27 更新2025-10-28 收录
下载链接:
https://huggingface.co/datasets/CoughMamba/icbhi
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含音频记录和对应分类标签的数据集,共有八种标签类型,包括哮喘、支气管扩张、细支气管炎、慢性阻塞性肺病、健康、下呼吸道感染、肺炎和上呼吸道感染。数据集用于训练模型以识别和分类这些不同的呼吸系统状况。
This is a dataset comprising audio recordings and their corresponding classification labels, covering eight distinct label categories: asthma, bronchiectasis, bronchiolitis, chronic obstructive pulmonary disease (COPD), healthy status, lower respiratory tract infection, pneumonia, and upper respiratory tract infection. This dataset is designed for training models to recognize and classify these various respiratory conditions.
创建时间:
2025-10-25
原始信息汇总
ICBHI 数据集概述
基本信息
- 数据集名称:ICBHI
- 存储平台:Hugging Face
- 数据集地址:https://huggingface.co/datasets/CoughMamba/icbhi
数据特征
特征结构
- 音频数据:audio字段存储音频数据
- 标签数据:label字段存储疾病分类标签
疾病分类标签
- 0: Asthma(哮喘)
- 1: Bronchiectasis(支气管扩张)
- 2: Bronchiolitis(细支气管炎)
- 3: COPD(慢性阻塞性肺疾病)
- 4: Healthy(健康)
- 5: LRTI(下呼吸道感染)
- 6: Pneumonia(肺炎)
- 7: URTI(上呼吸道感染)
数据规模
数据分割
- 训练集:包含920个样本
- 总数据量:2,180,782,723字节(约2.18 GB)
- 下载大小:2,136,847,450字节(约2.14 GB)
配置信息
- 默认配置:default
- 数据文件路径:data/train-*
搜集汇总
数据集介绍

构建方式
在呼吸音分析领域,ICBHI数据集通过系统采集临床环境中的肺部听诊录音构建而成。该数据集收录了920条音频样本,涵盖哮喘、支气管扩张等多种呼吸系统疾病及健康状态,每条样本均经过专业医学标注,确保数据与诊断标签的精确对应。音频文件采用标准化格式存储,便于研究者直接调用与分析。
特点
该数据集的核心特点在于其临床多样性与标注专业性,覆盖从健康状态到七类常见呼吸系统疾病的完整谱系。音频数据保留了原始听诊的声学特征,包括呼吸周期、异常音等关键信息,为算法开发提供了丰富的病理特征参考。数据划分集中于单一训练集,适合用于模型训练与验证的整合研究。
使用方法
研究者可通过加载标准音频接口直接访问数据集,利用其标签体系进行呼吸音分类或疾病检测模型的开发。建议将音频数据转换为频谱图或声学特征序列,结合深度学习框架实现端到端训练。数据集的统一格式支持跨平台兼容,可无缝接入主流机器学习流程进行病理模式挖掘。
背景与挑战
背景概述
ICBHI数据集由国际生物医学与健康信息学协会于2017年牵头创建,聚焦呼吸系统疾病的听诊音分析领域。该数据集收录了920条肺部听诊音频样本,涵盖哮喘、支气管扩张、慢性阻塞性肺病等八类临床常见呼吸状态,旨在通过声学特征推动呼吸疾病的辅助诊断技术发展。作为呼吸音分析领域首个标准化基准数据集,其多中心采集模式和精细病理标注为机器学习模型在医疗声学场景的应用提供了重要支撑。
当前挑战
在呼吸音分类任务中,不同病理状态的声学特征存在高度重叠,例如细湿罗音与干啰音的频谱区分度有限,这对特征提取算法的鲁棒性提出严峻考验。数据构建阶段面临临床采集环境噪声干扰、听诊部位差异导致的信号变异等挑战,同时罕见病例样本不足导致类别分布失衡。此外,医疗数据的隐私保护要求与深度学习模型对大规模数据的需求形成显著矛盾,需通过数据脱敏与联邦学习等技术平衡临床合规性与模型效能。
常用场景
解决学术问题
该数据集有效解决了呼吸音自动分类中样本稀缺与标注标准不统一的学术难题。通过提供多类病理呼吸音的标准化数据,支持了呼吸系统疾病早期筛查算法的开发,推动了医学音频分析领域的量化研究。其标注体系为咳嗽音与肺音的特征提取建立了参考基准,显著降低了跨机构研究的数据异构性问题。
衍生相关工作
受ICBHI数据集启发,学界涌现出多项经典研究,如结合卷积神经网络的呼吸音分割算法、基于注意力机制的病理分类模型等。这些工作不仅优化了传统声学特征提取方法,还推动了多模态医疗数据分析框架的发展。后续研究进一步拓展至咳嗽检测与新冠肺炎筛查等新兴领域,形成了完整的呼吸音计算分析研究脉络。
以上内容由遇见数据集搜集并总结生成



