ICSD

github2024-07-25 更新2024-07-31 收录

下载链接：

https://github.com/QingyuLiu0521/ICSD

下载链接

链接失效反馈

官方服务：

资源简介：

ICSD是一个综合的音频事件数据集，用于婴儿哭声和打鼾检测。该数据集包含超过3.3小时的强标注数据和1小时的弱标注数据，包含前景事件和背景事件，用于生成合成数据。数据集的音频文件存储在audio文件夹中，事件时间戳注释存储在metadata文件夹中，每个文件夹进一步分为训练、验证和测试子文件夹。此外，还提供了生成合成强标注数据的源材料。

ICSD is a comprehensive audio event dataset for infant cry and snoring detection. This dataset contains over 3.3 hours of strongly labeled data and 1 hour of weakly labeled data, including both foreground and background events for synthetic data generation. The audio files of the dataset are stored in the `audio` folder, while event timestamp annotations are saved in the `metadata` folder. Both folders are further divided into training, validation, and test subfolders. In addition, source materials for generating synthetic strongly labeled data are also provided.

创建时间：

2024-07-20

原始信息汇总

ICSD: An Open-source Dataset for Infant Cry and Snoring Detection

数据集概述

ICSD 是一个用于婴儿哭声和打鼾检测的综合音频事件数据集，具有以下特点：

包含超过 3.3 小时的强标签数据和 1 小时的弱标签数据；
包含前景事件和背景事件，用于生成合成数据。

数据结构

数据集的音频文件存储在 audio 文件夹中，事件时间戳注释存储在 metadata 文件夹中，每个文件夹进一步分为训练、验证和测试子文件夹。此外，还提供了用于生成合成强标签数据的源材料。可以使用 Scaper 生成自己的合成数据。

数据预览

demo 文件夹提供了四个可供下载和试听的音频样本。

基线系统

基线系统基于 DCASE 2023 Challenge 任务4设计，提供了三种基线：

仅使用合成数据的基线
使用真实数据和合成数据的基线
使用预训练嵌入的基线

使用方法

数据下载：从 HuggingFace 下载数据集并解压到 data 文件夹。
训练：
- 仅使用合成数据的基线：python train_sed.py
- 使用真实数据和合成数据的基线：python train_sed.py --strong_real
- 使用预训练嵌入的基线：先预计算嵌入：python extract_embeddings.py --output_dir ./embeddings --pretrained_model "beats"，然后运行系统：train_pretrained.py

引用

如果使用 ICSD 数据集，请引用以下论文： bibtex @article{ICSD, title={ICSD: An Open-source Dataset for Infant Cry and Snoring Detection}, author={Qingyu Liu, Longfei Song, Dongxing Xu, Yanhua Long}, journal={arXiv}, volume={} year={2024} }

搜集汇总

数据集介绍

构建方式

ICSD数据集的构建基于对婴儿哭声和打鼾声音的全面采集与标注。该数据集包含超过3.3小时的强标注数据和1小时的弱标注数据，涵盖前景事件和背景事件，以便生成合成数据。音频文件和事件时间戳注释分别存储在音频文件夹和元数据文件夹中，并进一步细分为训练、验证和测试子文件夹。此外，还提供了用于生成合成强标注数据的源材料，用户可使用Scaper工具生成自定义的合成数据。

特点

ICSD数据集的显著特点在于其丰富的音频事件类型和多层次的标注信息。该数据集不仅包含强标注和弱标注的音频数据，还提供了用于生成合成数据的源材料，增强了数据集的多样性和实用性。此外，数据集的结构化存储方式和详细的元数据注释，使得研究人员能够高效地进行数据处理和模型训练。

使用方法

使用ICSD数据集时，用户首先需访问Hugging Face仓库请求访问权限，并在获得授权后生成个人令牌以下载数据集。下载完成后，数据集将自动解压至指定文件夹。数据集提供了多种基准系统，包括仅使用合成数据、结合真实数据和合成数据，以及利用预训练嵌入的基准系统。用户可根据需求选择相应的训练和测试命令，进行模型训练和评估。

背景与挑战

背景概述

ICSD数据集，全称为Infant Cry and Snoring Detection，是一个专注于婴儿哭声和打鼾检测的综合音频事件数据集。该数据集由Qingyu Liu等研究人员创建，旨在为相关领域的研究提供丰富的音频资源和标注信息。ICSD数据集包含了超过3.3小时的强标签数据和1小时的弱标签数据，涵盖了前景事件和背景事件，为生成合成数据提供了基础。该数据集的构建不仅为婴儿哭声和打鼾检测提供了宝贵的资源，还为音频事件检测领域的研究提供了新的视角和方法。

当前挑战

ICSD数据集在构建过程中面临了多重挑战。首先，音频数据的采集和标注需要高度的专业性和准确性，以确保数据的质量和可靠性。其次，合成数据的生成需要复杂的算法和工具支持，如Scaper，这增加了数据集构建的技术难度。此外，数据集的版权问题也是一个重要的挑战，ICSD数据集明确指出其不拥有音频的版权，这要求使用者在研究和应用中需谨慎处理版权问题。最后，数据集的访问权限管理也是一个挑战，需要确保数据的安全性和合法使用。

常用场景

经典使用场景

在婴儿健康监测领域，ICSD数据集的经典使用场景主要集中在婴儿哭声和打鼾的自动检测与分类。通过该数据集，研究人员可以训练和验证用于识别婴儿哭声和打鼾事件的机器学习模型。这些模型可以应用于智能婴儿监护系统，实时监测婴儿的生理状态，从而提供及时的医疗干预或家庭护理建议。

衍生相关工作

基于ICSD数据集，研究人员开发了多种婴儿哭声和打鼾检测的基准系统，并在此基础上进行了深入的算法优化和模型扩展。例如，一些研究工作利用预训练的音频特征提取模型（如BEATs）来提升检测性能，而另一些则探索了合成数据在训练过程中的有效性。这些衍生工作不仅丰富了数据集的应用场景，还为相关领域的技术进步提供了有力支持。

数据集最近研究