five

Ubenwa CryCeleb

收藏
arXiv2024-03-22 更新2024-06-21 收录
下载链接:
https://huggingface.co/datasets/Ubenwa/CryCeleb2023
下载链接
链接失效反馈
官方服务:
资源简介:
Ubenwa CryCeleb数据集是由Ubenwa Health创建的,包含786个新生儿的哭泣声音,总计6.5小时。该数据集的哭泣声音来自新生儿出生后和出院前的不同时间点,旨在通过验证任务推动婴儿哭泣分析的研究。数据集创建过程中,原始音频被手动分割并去除个人识别信息,确保数据的安全性和适用性。该数据集主要应用于婴儿身份验证和健康病理检测,如神经损伤等,是一个极具挑战性和应用潜力的音频数据集。

The Ubenwa CryCeleb dataset, developed by Ubenwa Health, includes crying audio recordings from 786 newborns, with a total duration of 6.5 hours. The audio samples were collected at various time points between birth and hospital discharge, and the dataset is intended to advance research on infant cry analysis via verification tasks. During the dataset's creation, raw audio was manually segmented and anonymized to remove personally identifiable information (PII), ensuring data security and usability. This dataset is mainly applied to infant identity verification and health pathology detection, such as neurological injury detection, and it is a highly challenging audio dataset with great application potential.
提供机构:
Ubenwa Health
创建时间:
2023-05-02
搜集汇总
数据集介绍
main_image_url
构建方式
在新生儿健康监测领域,Ubenwa CryCeleb数据集通过严谨的临床研究流程构建而成。研究团队在新生儿出生后一小时内及出院前两个关键时间点,使用标准化移动设备在10-15厘米距离采集原始哭声录音,采样频率为44.1kHz。所有音频经过降采样至16kHz处理后,由专业标注人员手动分割为呼气段、吸气段和无哭声段,最终精选26,093个呼气段作为有效哭声样本。数据采集过程严格遵循隐私保护原则,所有个人身份信息均被匿名化处理,最终形成包含786名婴儿、总时长6.5小时的标准化数据集。
特点
该数据集在婴儿哭声分析领域展现出独特的学术价值。其核心特征在于包含348名婴儿在出生和出院两个时间点的配对录音,这种纵向设计为研究婴儿声学特征的时序变化提供了珍贵素材。数据分布呈现典型特征:绝大多数哭声片段集中在0.5-1.0秒区间,超过4秒的片段仅占0.3%,这种短时特性对声学建模提出了特殊挑战。数据集采用精心设计的划分策略,训练集包含586名婴儿,开发集和测试集各含40名和160名婴儿,且后两者均确保每名婴儿拥有两个时间点的完整录音,这种结构为验证系统的泛化能力奠定了坚实基础。
使用方法
该数据集主要服务于说话人验证任务的研究与应用。使用者可按照标准流程加载预处理后的WAV格式音频文件,配合详细的元数据表格进行模型训练与评估。数据集特别设计了开发集和测试集的验证对,每对包含出生和出院两个时间点的录音,这种跨时段配对方式模拟了实际临床场景中的身份验证需求。评估体系采用等错误率作为核心指标,参赛者可通过余弦相似度评分机制构建验证系统。研究实践表明,基于VoxCeleb预训练模型的迁移学习策略能显著提升性能,而测试时数据增强和损失函数优化等技巧也被证明是有效的改进途径。
背景与挑战
背景概述
婴儿哭声分析作为一项跨学科研究领域,其临床探索可追溯至上世纪六十年代。随着机器学习技术的演进,基于哭声的病理检测与身份识别逐渐成为前沿焦点。在此背景下,Ubenwa CryCeleb 数据集于2023年由 Ubenwa Health 联合 Mila-Quebec AI 研究所等机构共同构建,旨在填补新生儿多时段哭声数据的空白。该数据集收录了786名婴儿的逾6小时呼气段哭声片段,其中348名婴儿包含出生与出院前双时段录音,为核心的身份验证任务提供了珍贵资源。作为首个面向公开竞赛的婴儿哭声数据集,CryCeleb 不仅推动了哭声验证算法的发展,更为新生儿健康监测与个体化医疗提供了数据基石。
当前挑战
该数据集致力于解决婴儿哭声的说话人验证问题,即通过哭声判断是否来自同一婴儿。然而,新生儿哭声信号具有显著的生理变异性,出生后数日内声带结构与呼吸模式可能快速变化,导致跨时段声学特征一致性降低,现有最优系统的等错误率仍高达25.8%,远低于成人说话人验证水平。在数据构建层面,新生儿数据采集面临严格的伦理与实操约束,需在医疗环境中由专业人员操作,并涉及哭声片段的人工分割与去标识化处理。此外,哭声持续时间普遍短暂(约0.5-1.0秒),且呼气段信号中有效身份信息的密度较低,进一步增加了特征提取与模型泛化的难度。
常用场景
经典使用场景
在婴儿哭声分析领域,Ubenwa CryCeleb数据集为声纹验证研究提供了独特资源。该数据集通过收集786名新生儿的哭声片段,构建了一个包含多时间点录音的标注集合,使得研究者能够探索婴儿哭声中的个体识别特征。其经典应用场景在于训练和评估基于哭声的说话人验证模型,特别是在跨时间段的身份匹配任务中,这模拟了实际医疗环境中对同一婴儿多次录音的识别需求。
实际应用
在实际医疗与家庭监护场景中,该数据集支持开发能够区分不同婴儿哭声的智能系统。例如,在医院新生儿监护室或多胞胎家庭中,系统可基于哭声自动识别婴儿身份,辅助护理人员精准响应需求。此外,结合病理检测算法,此类技术有望延伸至出生窒息等疾病的早期筛查,提升医疗诊断的自动化水平与效率。
衍生相关工作
围绕该数据集衍生的经典工作包括基于ECAPA-TDNN架构的声纹验证模型优化,以及迁移学习策略在婴儿哭声分析中的适应性研究。竞赛中优胜方案引入了测试时数据增强、三元组损失函数等技术,显著提升了验证精度。这些探索不仅推动了婴儿哭声识别领域的算法进步,也为声学生物特征识别在低资源场景下的应用提供了方法论参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作