donateacry-corpus
收藏github2020-06-30 更新2024-05-31 收录
下载链接:
https://github.com/anrizal/donateacry-corpus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个通过Donate-a-cry活动建立的婴儿哭声音频数据集,包含用户上传的原始音频样本,用于研究和分析婴儿哭声。
This is an infant cry audio dataset established through the Donate-a-cry campaign, containing original audio samples uploaded by users, intended for research and analysis of infant cries.
创建时间:
2019-03-06
原始信息汇总
数据集概述
数据集名称
donateacry-corpus
数据集描述
该数据集是一个婴儿哭声音频库,通过“Donate-a-cry”活动收集,包含用户通过Android和iOS应用程序上传的原始音频样本。
文件来源
音频样本由用户上传,未经修改或检查,直接从Donate-a-cry移动应用程序获取。
文件使用
数据集遵循开放数据库许可(ODbL),详细信息可参考Open Database License。
文件命名规则
- iOS: 文件名格式为
app instance uuid-unix epoch timestamp-app version-gender-age-reason.caf。 - Android: 文件名格式类似,但时间戳为毫秒级。
标签说明
- 性别:
m- 男性,f- 女性 - 年龄:
04- 0至4周,48- 4至8周,26- 2至6个月,72- 7个月至2年,22- 超过2年 - 原因:
hu- 饥饿,bu- 需要打嗝,bp- 肚子痛,dc- 不适,ti- 疲劳,lo- 孤独,ch- 冷/热,sc- 害怕,dk- 未知
许可证
数据集及其内容遵循开放数据库许可和数据库内容许可,详细信息可参考Open Database License和Database Contents License。
搜集汇总
数据集介绍

构建方式
donateacry-corpus数据集是通过Donate-a-cry活动构建的婴儿哭声音频语料库。该数据集中的音频样本由用户通过Android和iOS平台的Donate-a-cry移动应用程序上传,保留了原始、未经修改的形式。每个音频文件的命名包含了丰富的元数据信息,如应用实例的唯一标识符、录音时间戳、应用版本、婴儿性别、年龄以及哭声原因等。这些信息由用户自行标注,确保了数据的多样性和真实性。
特点
该数据集的特点在于其广泛的覆盖范围和详细的元数据信息。音频样本涵盖了不同性别、年龄段的婴儿,并标注了多种可能的哭声原因,如饥饿、需要打嗝、腹痛等。文件命名规范清晰,便于解析和使用。此外,数据集遵循开放数据库许可(ODbL),允许用户自由使用和共享数据,进一步推动了相关研究的发展。
使用方法
使用donateacry-corpus数据集时,用户可以通过解析文件名中的元数据信息来获取样本的详细背景。文件名结构明确,包含应用实例的唯一标识符、录音时间戳、应用版本、婴儿性别、年龄及哭声原因等信息。用户可以根据研究需求筛选特定性别、年龄段或哭声原因的样本进行分析。数据集遵循开放数据库许可(ODbL),用户在使用时需遵守相关许可条款,确保数据的合法使用和共享。
背景与挑战
背景概述
donateacry-corpus数据集是一个专注于婴儿哭声的音频语料库,由Donate-a-cry活动构建而成。该数据集通过移动应用程序收集用户上传的婴儿哭声样本,旨在为婴儿哭声识别与分析提供数据支持。数据集的核心研究问题在于如何通过音频数据识别婴儿的不同需求,如饥饿、疲倦或不适等。自2015年创建以来,该数据集为婴儿健康监测和早期干预研究提供了重要资源,推动了相关领域的技术发展。
当前挑战
donateacry-corpus数据集在构建和应用过程中面临多重挑战。首先,婴儿哭声的多样性和复杂性使得音频样本的标注和分类变得困难,尤其是用户自行标注的准确性难以保证。其次,数据集的构建依赖于用户上传,样本的质量和数量存在较大波动,可能导致数据分布不均。此外,音频文件的格式和命名规则虽已标准化,但在实际应用中仍需复杂的解析和处理流程,增加了数据使用的技术门槛。这些挑战限制了数据集在更广泛研究中的应用效果。
常用场景
经典使用场景
在婴儿健康监测领域,donateacry-corpus数据集被广泛用于婴儿哭声的分类和识别研究。通过分析不同性别、年龄和哭闹原因的音频样本,研究人员能够训练机器学习模型,以自动识别婴儿的生理和情感状态。这一数据集的应用不仅限于学术研究,还扩展到了智能婴儿监护设备的开发中,为父母提供实时的婴儿状态反馈。
解决学术问题
donateacry-corpus数据集解决了婴儿哭声识别中的多维度分类问题。通过提供详细的标签信息,如性别、年龄和哭闹原因,该数据集使得研究人员能够开发出更加精确的算法,用于区分不同类型的哭声。这不仅推动了婴儿健康监测技术的发展,还为相关领域的研究提供了宝贵的数据支持。
衍生相关工作
基于donateacry-corpus数据集,许多经典的研究工作得以展开。例如,一些研究利用该数据集开发了基于深度学习的婴儿哭声分类模型,这些模型在准确性和鲁棒性方面表现出色。此外,还有一些研究将该数据集与其他生理数据结合,进一步探索婴儿哭声与健康状况之间的关系,为婴儿健康监测提供了新的视角。
以上内容由遇见数据集搜集并总结生成



