donateacry-corpus

github2024-05-17 更新2024-05-31 收录

下载链接：

https://github.com/gveres/donateacry-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个通过Donate-a-cry活动构建的婴儿哭声音频语料库，包含用户上传的原始音频样本，用于研究婴儿哭声的各种原因和特征。

A corpus of infant cry audio constructed through the Donate-a-cry initiative, comprising original audio samples uploaded by users, intended for research into the various causes and characteristics of infant crying.

创建时间：

2015-07-23

原始信息汇总

donateacry-corpus 数据集概述

数据集来源

数据集包含用户通过 Donate-a-cry 移动应用（Android 和 iOS）上传的原始音频样本。

文件命名规则

iOS

格式：app instance uuid-unix epoch timestamp-app version-gender-age-reason
示例：0D1AD73E-4C5E-45F3-85C4-9A3CB71E8856-1430742197-1.0-m-04-hu.caf
解释：应用实例唯一ID、录制时间（Unix时间戳）、应用版本、性别、年龄、哭泣原因。

Android

格式：app instance uuid-unix epoch timestamp (milliseconds)-app version-gender-age-reason
示例：0c8f14a9-6999-485b-97a2-913c1cbf099c-1431028888092-1.7-m-26-sc.3gp
解释：应用实例唯一ID、录制时间（Unix时间戳，以毫秒为单位）、应用版本、性别、年龄、哭泣原因。

标签定义

性别

m: 男性
f: 女性

年龄

04: 0至4周
48: 4至8周
26: 2至6个月
72: 7个月至2年
22: 超过2年

哭泣原因

hu: 饥饿
bu: 需要拍嗝
bp: 肚子痛
dc: 不适
ti: 疲劳
lo: 孤独
ch: 冷/热
sc: 害怕
dk: 未知

许可证

数据集遵循开放数据库许可证（ODbL），详情请见：Open Database License。

搜集汇总

数据集介绍

构建方式

该数据集通过Donate-a-cry活动构建，该活动已不再活跃。音频样本由用户通过Android和iOS平台的Donate-a-cry移动应用程序上传，保留了原始、未经修改的状态。文件名中嵌入了贡献者提供的标签信息，包括婴儿的性别、年龄和哭泣原因等。这种用户驱动的标签方式使得数据集具有较高的多样性和真实性。

特点

该数据集的主要特点在于其用户生成的标签和多样化的音频样本。文件名中包含了详细的元数据，如应用程序实例的唯一标识符、录音时间戳、应用程序版本、婴儿性别、年龄以及哭泣原因。这种结构化的信息使得数据集在婴儿哭泣分析和相关研究中具有较高的应用价值。

使用方法

使用该数据集时，用户需解析文件名以提取相关信息，如婴儿的性别、年龄和哭泣原因等。数据集遵循ODbL许可协议，使用时需遵守相关条款，并在使用过程中向数据集维护者发送通知。该数据集适用于婴儿哭泣分析、情感识别等领域的研究，为相关算法和模型的开发提供了丰富的音频样本和标签信息。

背景与挑战

背景概述

donateacry-corpus数据集是由Donate-a-cry活动构建的婴儿哭声音频语料库，该活动虽已不再活跃，但其收集的音频样本为研究婴儿哭声提供了宝贵的资源。该数据集的核心研究问题在于通过分析婴儿哭声来识别其需求和情感状态，这对于婴儿护理和早期干预具有重要意义。数据集的创建时间可追溯至2015年，主要通过Android和iOS平台的移动应用收集用户上传的音频样本。这些样本经过用户自行标注，涵盖了婴儿的性别、年龄和哭声原因等信息，为相关领域的研究提供了丰富的数据支持。

当前挑战

donateacry-corpus数据集在构建过程中面临多项挑战。首先，音频样本的来源多样且未经专业检查，可能存在质量参差不齐的问题，这增加了数据清洗和预处理的复杂性。其次，用户自行标注的信息可能存在主观性和不准确性，如何确保标注的可靠性和一致性是一个重要挑战。此外，数据集的多样性，包括不同年龄段、性别和哭声原因的样本，虽然丰富了研究内容，但也增加了模型训练的难度。最后，数据集的隐私和伦理问题，如如何保护上传者的个人信息，也是需要慎重考虑的方面。

常用场景

经典使用场景

donateacry-corpus数据集的经典使用场景主要集中在婴儿哭声的自动识别与分类研究中。通过分析音频文件中的哭声特征，研究者可以构建模型来区分不同原因的哭声，如饥饿、不适或孤独等。这种研究不仅有助于开发智能婴儿监控系统，还能为父母提供实时的育儿建议，从而提升婴儿护理的效率和质量。

衍生相关工作

基于donateacry-corpus数据集，研究者们已开展了多项相关工作，包括婴儿哭声的深度学习模型构建、多模态情感识别系统的开发以及跨文化婴儿哭声比较研究等。这些工作不仅丰富了婴儿哭声分析的理论基础，还推动了相关技术的实际应用，如智能家居设备中的婴儿监控功能和远程育儿支持系统，进一步扩展了该数据集的影响力。

数据集最近研究