donateacry-corpus

github2020-10-07 更新2024-05-31 收录

下载链接：

https://github.com/pr26hup/donateacry-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个通过Donate-a-cry活动构建的婴儿哭声音频数据集，包含用户上传的原始音频样本，用于研究和分析婴儿哭声。

A dataset of infant cry audio constructed through the Donate-a-cry initiative, comprising original audio samples uploaded by users, intended for research and analysis of infant cries.

创建时间：

2017-06-23

原始信息汇总

donateacry-corpus 数据集概述

数据集来源

该数据集包含用户通过Donate-a-cry移动应用（Android和iOS平台）上传的原始音频样本。

文件命名规范

iOS平台

文件名示例：0D1AD73E-4C5E-45F3-85C4-9A3CB71E8856-1430742197-1.0-m-04-hu.caf
命名结构：app instance uuid - unix epoch timestamp - app version - gender - age - reason

Android平台

文件名示例：0c8f14a9-6999-485b-97a2-913c1cbf099c-1431028888092-1.7-m-26-sc.3gp
命名结构：app instance uuid - unix epoch timestamp (in milliseconds) - app version - gender - age - reason

标签定义

性别

m: 男性
f: 女性

年龄

04: 0至4周
48: 4至8周
26: 2至6个月
72: 7个月至2年
22: 超过2年

哭泣原因

hu: 饥饿
bu: 需要拍嗝
bp: 肚子痛
dc: 不适
ti: 疲劳
lo: 孤独
ch: 冷/热
sc: 害怕
dk: 未知

许可证

数据集遵循Open Database License (ODbL)。
个别内容遵循Database Contents License (DBCL)。

搜集汇总

数据集介绍

构建方式

donateacry-corpus数据集的构建依托于Donate-a-cry运动，通过Android和iOS平台的移动应用程序收集用户上传的婴儿哭声音频样本。这些样本以原始、未经修改的形式存储，文件名中包含了由贡献者自行标注的元数据信息，如性别、年龄和哭泣原因等。数据集的构建过程充分体现了众包数据收集的特点，确保了数据的多样性和真实性。

特点

该数据集的特点在于其丰富的元数据标注，每个音频文件的命名规则详细记录了样本的采集时间、应用程序版本、婴儿性别、年龄及哭泣原因等信息。这种结构化的命名方式为研究者提供了便捷的数据解析途径，同时也为婴儿哭声的自动识别和分析提供了高质量的标注数据。此外，数据集涵盖了不同年龄段和多种哭泣原因，具有较高的研究价值。

使用方法

使用donateacry-corpus数据集时，研究者可通过解析文件名中的元数据信息快速获取样本的详细属性。数据集遵循ODbL（开放数据库许可）协议，用户在使用过程中需遵守相关许可条款，并在使用后与数据集维护团队联系。该数据集适用于婴儿哭声识别、情感分析及相关领域的研究，为开发智能婴儿监护系统提供了重要的数据支持。

背景与挑战

背景概述

donateacry-corpus数据集是一个专门收集婴儿哭声的音频语料库，旨在通过Donate-a-cry活动构建一个广泛且多样化的婴儿哭声数据库。该数据集由New Parents Apps公司发起，通过其开发的Android和iOS移动应用程序收集用户上传的音频样本。数据集的核心研究问题在于通过分析婴儿哭声的频率、强度和模式，帮助父母和医疗专业人员更好地理解婴儿的需求和健康状况。自2015年创建以来，该数据集在婴儿健康监测和早期疾病诊断领域产生了重要影响，为相关研究提供了宝贵的数据资源。

当前挑战

donateacry-corpus数据集在构建和应用过程中面临多重挑战。首先，婴儿哭声的多样性和复杂性使得数据标注和分类变得极为困难，尤其是在缺乏专业医疗背景的情况下，用户自行标注的准确性难以保证。其次，音频样本的质量和一致性也是一个重要问题，由于录音环境和设备的不同，噪声干扰和音频失真现象普遍存在。此外，数据集的隐私和伦理问题也不容忽视，如何在保护用户隐私的同时确保数据的开放性和可用性，是数据集管理中的一大挑战。这些挑战不仅影响了数据集的质量，也限制了其在更广泛领域的应用潜力。

常用场景

经典使用场景

在婴儿哭声识别与分析领域，donateacry-corpus数据集被广泛应用于开发智能婴儿监护系统。通过分析婴儿哭声的频率、强度和持续时间，研究人员能够识别出婴儿的不同需求，如饥饿、困倦或不适，从而为父母提供及时的护理建议。

衍生相关工作

基于donateacry-corpus数据集，衍生出了多项经典研究工作。例如，研究人员开发了基于深度学习的婴儿哭声分类模型，能够高精度地识别哭声原因。此外，该数据集还被用于研究婴儿情感识别算法，进一步推动了智能婴儿监护系统的发展，为相关领域的创新提供了重要支持。

数据集最近研究