ICSD|音频事件检测数据集|婴儿哭声与打鼾数据集

github2024-07-25 更新2024-07-31 收录

音频事件检测

婴儿哭声与打鼾

下载链接：

https://github.com/QingyuLiu0521/ICSD

下载链接

链接失效反馈

资源简介：

ICSD是一个综合的音频事件数据集，用于婴儿哭声和打鼾检测。该数据集包含超过3.3小时的强标注数据和1小时的弱标注数据，包含前景事件和背景事件，用于生成合成数据。数据集的音频文件存储在audio文件夹中，事件时间戳注释存储在metadata文件夹中，每个文件夹进一步分为训练、验证和测试子文件夹。此外，还提供了生成合成强标注数据的源材料。

创建时间：

2024-07-20

原始信息汇总

ICSD: An Open-source Dataset for Infant Cry and Snoring Detection

数据集概述

ICSD 是一个用于婴儿哭声和打鼾检测的综合音频事件数据集，具有以下特点：

包含超过 3.3 小时的强标签数据和 1 小时的弱标签数据；
包含前景事件和背景事件，用于生成合成数据。

数据结构

数据集的音频文件存储在 audio 文件夹中，事件时间戳注释存储在 metadata 文件夹中，每个文件夹进一步分为训练、验证和测试子文件夹。此外，还提供了用于生成合成强标签数据的源材料。可以使用 Scaper 生成自己的合成数据。

数据预览

demo 文件夹提供了四个可供下载和试听的音频样本。

基线系统

基线系统基于 DCASE 2023 Challenge 任务4设计，提供了三种基线：

仅使用合成数据的基线
使用真实数据和合成数据的基线
使用预训练嵌入的基线

使用方法

数据下载：从 HuggingFace 下载数据集并解压到 data 文件夹。
训练：
- 仅使用合成数据的基线：python train_sed.py
- 使用真实数据和合成数据的基线：python train_sed.py --strong_real
- 使用预训练嵌入的基线：先预计算嵌入：python extract_embeddings.py --output_dir ./embeddings --pretrained_model "beats"，然后运行系统：train_pretrained.py

引用

如果使用 ICSD 数据集，请引用以下论文： bibtex @article{ICSD, title={ICSD: An Open-source Dataset for Infant Cry and Snoring Detection}, author={Qingyu Liu, Longfei Song, Dongxing Xu, Yanhua Long}, journal={arXiv}, volume={} year={2024} }

AI搜集汇总

数据集介绍

构建方式

ICSD数据集的构建基于对婴儿哭声和打鼾声音的全面采集与标注。该数据集包含超过3.3小时的强标注数据和1小时的弱标注数据，涵盖前景事件和背景事件，以便生成合成数据。音频文件和事件时间戳注释分别存储在音频文件夹和元数据文件夹中，并进一步细分为训练、验证和测试子文件夹。此外，还提供了用于生成合成强标注数据的源材料，用户可使用Scaper工具生成自定义的合成数据。

特点

ICSD数据集的显著特点在于其丰富的音频事件类型和多层次的标注信息。该数据集不仅包含强标注和弱标注的音频数据，还提供了用于生成合成数据的源材料，增强了数据集的多样性和实用性。此外，数据集的结构化存储方式和详细的元数据注释，使得研究人员能够高效地进行数据处理和模型训练。

使用方法

使用ICSD数据集时，用户首先需访问Hugging Face仓库请求访问权限，并在获得授权后生成个人令牌以下载数据集。下载完成后，数据集将自动解压至指定文件夹。数据集提供了多种基准系统，包括仅使用合成数据、结合真实数据和合成数据，以及利用预训练嵌入的基准系统。用户可根据需求选择相应的训练和测试命令，进行模型训练和评估。

背景与挑战

背景概述

ICSD数据集，全称为Infant Cry and Snoring Detection，是一个专注于婴儿哭声和打鼾检测的综合音频事件数据集。该数据集由Qingyu Liu等研究人员创建，旨在为相关领域的研究提供丰富的音频资源和标注信息。ICSD数据集包含了超过3.3小时的强标签数据和1小时的弱标签数据，涵盖了前景事件和背景事件，为生成合成数据提供了基础。该数据集的构建不仅为婴儿哭声和打鼾检测提供了宝贵的资源，还为音频事件检测领域的研究提供了新的视角和方法。

当前挑战

ICSD数据集在构建过程中面临了多重挑战。首先，音频数据的采集和标注需要高度的专业性和准确性，以确保数据的质量和可靠性。其次，合成数据的生成需要复杂的算法和工具支持，如Scaper，这增加了数据集构建的技术难度。此外，数据集的版权问题也是一个重要的挑战，ICSD数据集明确指出其不拥有音频的版权，这要求使用者在研究和应用中需谨慎处理版权问题。最后，数据集的访问权限管理也是一个挑战，需要确保数据的安全性和合法使用。

常用场景

经典使用场景

在婴儿健康监测领域，ICSD数据集的经典使用场景主要集中在婴儿哭声和打鼾的自动检测与分类。通过该数据集，研究人员可以训练和验证用于识别婴儿哭声和打鼾事件的机器学习模型。这些模型可以应用于智能婴儿监护系统，实时监测婴儿的生理状态，从而提供及时的医疗干预或家庭护理建议。

衍生相关工作

基于ICSD数据集，研究人员开发了多种婴儿哭声和打鼾检测的基准系统，并在此基础上进行了深入的算法优化和模型扩展。例如，一些研究工作利用预训练的音频特征提取模型（如BEATs）来提升检测性能，而另一些则探索了合成数据在训练过程中的有效性。这些衍生工作不仅丰富了数据集的应用场景，还为相关领域的技术进步提供了有力支持。

数据集最近研究

最新研究方向

在婴幼儿健康监测领域，ICSD数据集的最新研究方向主要集中在音频事件检测技术的优化与应用。该数据集不仅提供了丰富的强标签和弱标签音频数据，还支持合成数据的生成，为研究者提供了多样化的实验环境。前沿研究聚焦于利用深度学习模型，如预训练的BEATs模型，来提取高层次的非语音音频语义，从而提升婴儿哭声和打鼾事件的检测精度。此外，结合合成数据与真实数据的混合训练策略，也成为提升模型泛化能力的重要手段。这些研究不仅推动了婴幼儿健康监测技术的发展，也为相关领域的算法优化提供了宝贵的数据资源和实验平台。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录