donateacry-corpus

github2020-06-30 更新2024-05-31 收录

下载链接：

https://github.com/anrizal/donateacry-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个通过Donate-a-cry活动建立的婴儿哭声音频数据集，包含用户上传的原始音频样本，用于研究和分析婴儿哭声。

This is an infant cry audio dataset established through the Donate-a-cry campaign, containing original audio samples uploaded by users, intended for research and analysis of infant cries.

创建时间：

2019-03-06

原始信息汇总

数据集概述

数据集名称

donateacry-corpus

数据集描述

该数据集是一个婴儿哭声音频库，通过“Donate-a-cry”活动收集，包含用户通过Android和iOS应用程序上传的原始音频样本。

文件来源

音频样本由用户上传，未经修改或检查，直接从Donate-a-cry移动应用程序获取。

文件使用

数据集遵循开放数据库许可（ODbL），详细信息可参考Open Database License。

文件命名规则

iOS: 文件名格式为app instance uuid-unix epoch timestamp-app version-gender-age-reason.caf。
Android: 文件名格式类似，但时间戳为毫秒级。

标签说明

性别: m - 男性, f - 女性
年龄: 04 - 0至4周, 48 - 4至8周, 26 - 2至6个月, 72 - 7个月至2年, 22 - 超过2年
原因: hu - 饥饿, bu - 需要打嗝, bp - 肚子痛, dc - 不适, ti - 疲劳, lo - 孤独, ch - 冷/热, sc - 害怕, dk - 未知

许可证

数据集及其内容遵循开放数据库许可和数据库内容许可，详细信息可参考Open Database License和Database Contents License。

搜集汇总

数据集介绍

构建方式

donateacry-corpus数据集是通过Donate-a-cry活动构建的婴儿哭声音频语料库。该数据集中的音频样本由用户通过Android和iOS平台的Donate-a-cry移动应用程序上传，保留了原始、未经修改的形式。每个音频文件的命名包含了丰富的元数据信息，如应用实例的唯一标识符、录音时间戳、应用版本、婴儿性别、年龄以及哭声原因等。这些信息由用户自行标注，确保了数据的多样性和真实性。

特点

该数据集的特点在于其广泛的覆盖范围和详细的元数据信息。音频样本涵盖了不同性别、年龄段的婴儿，并标注了多种可能的哭声原因，如饥饿、需要打嗝、腹痛等。文件命名规范清晰，便于解析和使用。此外，数据集遵循开放数据库许可（ODbL），允许用户自由使用和共享数据，进一步推动了相关研究的发展。

使用方法

使用donateacry-corpus数据集时，用户可以通过解析文件名中的元数据信息来获取样本的详细背景。文件名结构明确，包含应用实例的唯一标识符、录音时间戳、应用版本、婴儿性别、年龄及哭声原因等信息。用户可以根据研究需求筛选特定性别、年龄段或哭声原因的样本进行分析。数据集遵循开放数据库许可（ODbL），用户在使用时需遵守相关许可条款，确保数据的合法使用和共享。

背景与挑战

背景概述

donateacry-corpus数据集是一个专注于婴儿哭声的音频语料库，由Donate-a-cry活动构建而成。该数据集通过移动应用程序收集用户上传的婴儿哭声样本，旨在为婴儿哭声识别与分析提供数据支持。数据集的核心研究问题在于如何通过音频数据识别婴儿的不同需求，如饥饿、疲倦或不适等。自2015年创建以来，该数据集为婴儿健康监测和早期干预研究提供了重要资源，推动了相关领域的技术发展。

当前挑战

donateacry-corpus数据集在构建和应用过程中面临多重挑战。首先，婴儿哭声的多样性和复杂性使得音频样本的标注和分类变得困难，尤其是用户自行标注的准确性难以保证。其次，数据集的构建依赖于用户上传，样本的质量和数量存在较大波动，可能导致数据分布不均。此外，音频文件的格式和命名规则虽已标准化，但在实际应用中仍需复杂的解析和处理流程，增加了数据使用的技术门槛。这些挑战限制了数据集在更广泛研究中的应用效果。

常用场景

经典使用场景

在婴儿健康监测领域，donateacry-corpus数据集被广泛用于婴儿哭声的分类和识别研究。通过分析不同性别、年龄和哭闹原因的音频样本，研究人员能够训练机器学习模型，以自动识别婴儿的生理和情感状态。这一数据集的应用不仅限于学术研究，还扩展到了智能婴儿监护设备的开发中，为父母提供实时的婴儿状态反馈。

解决学术问题

donateacry-corpus数据集解决了婴儿哭声识别中的多维度分类问题。通过提供详细的标签信息，如性别、年龄和哭闹原因，该数据集使得研究人员能够开发出更加精确的算法，用于区分不同类型的哭声。这不仅推动了婴儿健康监测技术的发展，还为相关领域的研究提供了宝贵的数据支持。

衍生相关工作

基于donateacry-corpus数据集，许多经典的研究工作得以展开。例如，一些研究利用该数据集开发了基于深度学习的婴儿哭声分类模型，这些模型在准确性和鲁棒性方面表现出色。此外，还有一些研究将该数据集与其他生理数据结合，进一步探索婴儿哭声与健康状况之间的关系，为婴儿健康监测提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集