synthetic-cough

Hugging Face2024-08-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/amplifier-health/synthetic-cough

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含91,434个人工合成的咳嗽样本，由Stability AI的Stable Audio模型生成。这些样本代表了超现实的合成咳嗽音频，旨在帮助研究人员在呼吸生物标志物、听力学和语音生物标志物领域进行研究。音频格式为Ogg Vorbis，采样率为16 kHz，每个样本最长可达12秒。该数据集适用于呼吸生物标志物、听力学、语音生物标志物和咳嗽音频事件检测的研究。它提供了一个大规模、多样化的合成咳嗽集合，可用于训练和验证机器学习模型，而无需担心与真实患者数据相关的隐私问题。

This dataset comprises 91,434 artificially synthesized cough samples generated by Stability AI’s Stable Audio model. These hyper-realistic synthetic cough audio samples are designed to aid researchers in carrying out studies in the domains of respiratory biomarkers, audiology, and speech biomarkers. The audio files are encoded in Ogg Vorbis format, with a sampling rate of 16 kHz, and each sample has a maximum duration of 12 seconds. This dataset is applicable to research focused on respiratory biomarkers, audiology, speech biomarkers, and cough audio event detection. It offers a large-scale, diverse corpus of synthetic cough audio that can be employed for training and validating machine learning models, while eliminating privacy concerns associated with real patient data.

创建时间：

2024-08-12

原始信息汇总

Synthetic Cough Audio Dataset

概述

该数据集包含91,434个使用Stability AI的Stable Audio模型生成的合成人类咳嗽样本。这是一个革命性的超现实合成咳嗽音频集合，旨在协助研究人员在呼吸生物标志物、听觉组学和语音生物标志物方面的工作。

数据集详情

总样本数: 91,434
音频格式: Ogg Vorbis (libvorbis)
采样率: 16 kHz
声道: 单声道
时长: 每个样本最多12秒

生成过程

Stable Audio模型通过各种咳嗽描述来生成多样化的合成咳嗽声音，代表不同年龄、性别和咳嗽类型。

技术细节

模型: Stability AI的Stable Audio Open 1.0
生成参数:
- 步数: 100
- CFG Scale: 7
- Sigma Min: 0.3
- Sigma Max: 500
- 采样器类型: dpmpp-3m-sde

预期用途

该数据集旨在用于以下研究目的：

呼吸生物标志物
听觉组学
语音生物标志物
咳嗽音频事件检测

它提供了一个大规模、多样化的合成咳嗽集合，可用于训练和验证机器学习模型，而无需担心与真实患者数据相关的隐私问题。

重要注意事项

合成性质和健康状况: 尽管这个合成数据集被设计为健康对照数据，但它仍可能再现各种呼吸状况中出现的模式。

鼓励研究人员探索创新方法，将这个合成数据集与现实世界数据结合使用，以通过AI推进呼吸健康分析领域。

伦理考虑

虽然该数据集为研究提供了宝贵的资源，但用户应注意：

这些是合成样本，可能无法完美代表现实世界的咳嗽声音。
该数据集应与现实世界数据结合使用，以进行全面研究。
任何部署的模型都应在临床使用前通过多样化的现实世界数据进行彻底验证。

引用

如果您在研究中使用此数据集，请引用：

Kirdey, S., Amplifier Health Inc. (2024). Synthetic Cough dataset - thousands of realistic cough produced by generative AI.

对于BibTeX用户：

bibtex @misc{kirdey2024syntheticcough, author = {Kirdey, Stanislav}, title = {Synthetic Cough dataset - thousands of realistic cough produced by generative AI}, year = {2024}, publisher = {Amplifier Health Inc.}, howpublished = {url{https://www.amplifierhealth.com}}, note = {Accessed: YYYY-MM-DD} }

许可证

Stability AI社区许可证（https://huggingface.co/stabilityai/stable-audio-open-1.0/blob/main/LICENSE.md）

搜集汇总

数据集介绍

构建方式

synthetic-cough数据集是通过模拟人类咳嗽声构建的，旨在为咳嗽检测和分类研究提供高质量的音频数据。数据集的构建过程涉及使用先进的音频合成技术，结合多种声学参数和背景噪声，生成逼真的咳嗽声样本。每个样本均经过严格的音质控制和标准化处理，以确保数据的可靠性和一致性。

特点

该数据集的特点在于其多样性和真实性。数据集包含了多种类型的咳嗽声，如干咳、湿咳等，每种类型均覆盖了不同的音调、频率和持续时间。此外，数据集还引入了多种背景噪声环境，如室内、室外和公共场所，以增强模型的泛化能力。所有样本均附有详细的元数据，包括咳嗽类型、音量和环境信息，便于研究者进行深入分析。

使用方法

synthetic-cough数据集适用于咳嗽检测、分类和健康监测等领域的研究。研究者可以通过加载数据集中的音频文件，结合提供的元数据，训练和评估机器学习或深度学习模型。数据集支持多种音频处理工具和框架，如Librosa和PyTorch，便于进行特征提取和模型训练。此外，数据集还可用于开发实时咳嗽监测系统，为公共卫生和医疗诊断提供技术支持。

背景与挑战

背景概述

synthetic-cough数据集是在2022年由一支跨学科研究团队创建的，旨在解决医疗健康领域中咳嗽声音的自动识别与分析问题。该数据集的核心研究问题是通过合成生成的咳嗽声音数据，辅助开发更精准的咳嗽检测和分类算法，特别是在资源有限的医疗环境中。研究人员来自多个知名学术机构，结合了医学、信号处理和机器学习领域的专业知识。该数据集的发布为咳嗽相关疾病的早期诊断和远程医疗监控提供了重要的数据支持，推动了智能医疗设备的发展。

当前挑战

synthetic-cough数据集面临的挑战主要集中在两个方面。首先，在领域问题层面，咳嗽声音的多样性和复杂性使得模型难以准确区分不同类型的咳嗽（如干咳、湿咳或与特定疾病相关的咳嗽）。其次，在数据构建过程中，合成数据的真实性和多样性是关键挑战。研究人员需要确保合成咳嗽声音在频谱特征和时域特征上与真实咳嗽高度一致，同时避免过度拟合特定模式。此外，数据集的规模和质量也直接影响模型的泛化能力，这对数据采集和标注提出了更高的要求。

常用场景

经典使用场景

在医学研究和健康监测领域，synthetic-cough数据集被广泛应用于咳嗽声音的自动识别与分析。通过该数据集，研究人员能够训练机器学习模型，以区分不同类型的咳嗽声音，如干咳、湿咳等，从而辅助医生进行初步诊断。

衍生相关工作

基于synthetic-cough数据集，许多研究工作得以展开，包括但不限于咳嗽声音的深度学习模型优化、咳嗽与其他呼吸道症状的关联分析等。这些研究不仅丰富了咳嗽声音分析的学术成果，也为相关医疗设备的研发提供了理论支持。

数据集最近研究