BMD-HS Dataset

github2024-09-04 更新2024-09-07 收录

下载链接：

https://github.com/sani002/BMD-HS-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

BMD-HS数据集是一个突破性的心脏声音记录集合，精心策划以增强自动化心血管疾病（CVD）诊断。该数据集包含超过800个录音，分为六个类别，包括常见瓣膜疾病：主动脉瓣狭窄（AS）、主动脉瓣反流（AR）、二尖瓣反流（MR）、多疾病（MD）和二尖瓣狭窄（MS），以及健康（正常）样本。

The BMD-HS dataset is a breakthrough collection of heart sound recordings, meticulously curated to enhance automated cardiovascular disease (CVD) diagnosis. This dataset contains over 800 recordings, categorized into six classes, including common valvular heart diseases: aortic stenosis (AS), aortic regurgitation (AR), mitral regurgitation (MR), multi-disease (MD), mitral stenosis (MS), as well as healthy (normal) samples.

创建时间：

2024-08-18

原始信息汇总

BMD-HS Dataset: Heart Sound Recordings for Automated Cardiovascular Disease Diagnosis

概述

BMD-HS数据集是一个突破性的心脏声音记录集合，精心策划以增强自动化心血管疾病（CVD）诊断。该数据集包含超过800个录音，分为六个类别，包括常见瓣膜疾病：主动脉狭窄（AS）、主动脉反流（AR）、二尖瓣反流（MR）、多疾病（MD）和二尖瓣狭窄（MS），以及健康（正常）样本。

关键特征

多标签注释：允许通过捕捉独特的疾病状态进行细致分类，包括单瓣膜和多瓣膜疾病。
超声心动图数据：包括超声心动图（ECHO）数据，为心血管疾病研究提供额外的诊断背景。
多样化的代表性：在孟加拉国心血管疾病国家研究所记录，数据集包括性别平衡的心脏声音集合，确保其在孟加拉国及类似地区的相关性。
平衡的类别代表性：从20名健康受试者和每种瓣膜疾病类别的20名受试者中收集录音，解决了类别不平衡问题。
丰富的元数据：注释包括疾病存在、严重程度和人口统计信息，支持深入研究和潜在的新关联发现。
多疾病数据：包括患有多种瓣膜疾病的患者，提供了一个复杂的真实世界场景数据集。

数据集结构

1. Train Folder

文件：包含872个.wav音频文件。
详情：从59名患者在8个不同位置采集的录音，每段录音持续20秒，采样频率为4 kHz。

2. Train.csv

目的：包含训练标签和每个患者的相应录音文件名。
列：
- patient_id：训练文件夹中的文件名。
- AS：主动脉狭窄标签（0 = 不存在，1 = 存在）。
- AR：主动脉反流标签（0 = 不存在，1 = 存在）。
- MR：二尖瓣反流标签（0 = 不存在，1 = 存在）。
- MS：二尖瓣狭窄标签（0 = 不存在，1 = 存在）。
- MD：多疾病患者标签（0 = 疾病，1 = 正常）。
- N：正常患者标签（0 = 疾病，1 = 正常）。
- recording_1 到 recording_8：每个患者在不同位置的8个录音文件名。

3. Additional_metadata.csv

目的：提供患者的补充信息，可用于增强预测或进行推断。
列：
- patient_id：训练文件夹中的文件名。
- Age：患者的年龄。
- Gender：患者的性别（M = 男性，F = 女性）。
- Smoker：吸烟状态（0 = 不吸烟，1 = 吸烟）。
- Lives：患者的居住区域（U = 城市，F = 农村）。

关键点

预处理与增强：由于训练集规模有限，有效的预处理和增强技术至关重要。
迁移学习：鼓励利用外部公开数据集进行迁移学习。
元数据利用：寻找瓣膜疾病类别与提供的元数据（年龄、性别、吸烟状态、居住区域）之间的关联，可能提高模型性能。

弱点

数据集不平衡：尽管努力平衡类别代表性，某些疾病严重程度和人口统计学上的变化仍可能引入不平衡，可能影响模型训练和性能。

潜在影响

BMD-HS数据集代表了多样化的代表性，特别适用于孟加拉国等地区的研究和医疗发展。多标签注释、超声心动图数据和全面的心脏健康状态表示，对推进基于AI的心血管疾病诊断工具具有重要意义，特别是在服务不足的地区。

搜集汇总

数据集介绍

构建方式

BMD-HS数据集的构建方式体现了对心血管疾病诊断的深刻理解与精细操作。该数据集精心收集了超过800份心音记录，涵盖六种常见的心脏瓣膜疾病类别，包括主动脉瓣狭窄（AS）、主动脉瓣反流（AR）、二尖瓣反流（MR）、多疾病（MD）、二尖瓣狭窄（MS）以及健康样本（Normal）。这些记录不仅分类明确，而且通过多标签注释，捕捉了单一和多瓣膜疾病的独特状态，使得分类更加细致。此外，数据集还包含了超声心动图（ECHO）数据，为心血管疾病研究提供了额外的诊断背景，使其更加全面。

使用方法

BMD-HS数据集的使用方法多样且灵活，适用于多种心血管疾病诊断模型的开发与验证。首先，数据集的训练文件夹包含了872个.wav音频文件，这些文件来自59名患者，每个患者在8个不同位置进行了20秒的录音，采样频率为4 kHz。训练标签和相应的录音文件名存储在train.csv文件中，提供了详细的疾病标签和患者信息。此外，Additional_metadata.csv文件提供了患者的补充信息，如年龄、性别、吸烟状态和居住区域，这些信息可以用于增强预测或进行推断。由于训练集规模有限，有效的预处理和数据增强技术至关重要，同时鼓励利用外部公开数据集进行迁移学习，以提高模型性能。

背景与挑战

背景概述

BMD-HS数据集是一个开创性的心脏声音记录集合，精心策划以增强心血管疾病（CVD）的自动化诊断。该数据集包含超过800个录音，分为六个类别，包括常见的心脏瓣膜疾病：主动脉瓣狭窄（AS）、主动脉瓣反流（AR）、二尖瓣反流（MR）、多疾病（MD）和二尖瓣狭窄（MS），以及健康（正常）样本。该数据集由孟加拉国心血管疾病国家研究所收集，确保了性别平衡和多样化的代表性，使其在孟加拉国及其他类似地区的医疗保健中具有重要意义。此外，数据集的多标签注释、超声心动图数据和丰富的元数据，使其成为心血管疾病研究的综合资源，有望推动基于AI的诊断工具的发展。

当前挑战

尽管BMD-HS数据集在多标签注释、超声心动图数据和多样化的代表性方面具有显著优势，但其构建过程中仍面临若干挑战。首先，数据集的规模相对有限，需要有效的预处理和增强技术来提高模型的泛化能力。其次，尽管努力平衡类别分布，某些疾病严重程度和人口统计学上的差异仍可能导致数据不平衡，影响模型的训练和性能。此外，利用外部公开数据集进行迁移学习以及探索元数据与瓣膜疾病类别之间的关联，是提高模型性能的关键。这些挑战不仅反映了数据集的复杂性，也指出了未来研究中需要解决的问题。

常用场景

经典使用场景

BMD-HS数据集在心血管疾病诊断领域中具有经典应用，其主要用于开发和验证自动化的心脏声音分析系统。通过该数据集，研究人员可以训练和测试机器学习模型，以识别和分类不同类型的心脏瓣膜疾病，如主动脉狭窄（AS）、主动脉反流（AR）、二尖瓣反流（MR）、多疾病（MD）和二尖瓣狭窄（MS），以及健康样本。这种多标签分类能力使得模型能够处理复杂的临床场景，从而提高诊断的准确性和可靠性。

解决学术问题

BMD-HS数据集解决了心血管疾病诊断中的多个学术问题，特别是在自动化诊断工具的开发方面。该数据集通过提供多标签注释和心电图数据，帮助研究人员探索心脏声音与疾病状态之间的复杂关系。此外，数据集的多样性代表性确保了研究结果在不同人群中的普适性，这对于解决全球范围内心血管疾病的诊断挑战具有重要意义。

实际应用

在实际应用中，BMD-HS数据集为医疗保健领域提供了宝贵的资源，特别是在资源有限和医疗条件欠发达的地区。通过利用该数据集训练的模型，可以实现对心脏声音的自动分析，从而辅助医生进行快速且准确的诊断。这种技术在远程医疗和基层医疗中具有广泛的应用前景，有助于提高诊断效率和患者护理质量。

数据集最近研究