Sounds of Home: A Speech-Removed Residential Audio Dataset

Name: Sounds of Home: A Speech-Removed Residential Audio Dataset
Creator: 视觉、语音和信号处理中心，萨里大学，英国
Published: 2024-09-17 23:10:36
License: 暂无描述

arXiv2024-09-17 更新2024-09-19 收录

下载链接：

https://github.com/gbibbo/voice_anonymization/

下载链接

链接失效反馈

官方服务：

资源简介：

Sounds of Home数据集是由萨里大学的视觉、语音和信号处理中心创建，旨在支持智能家庭应用中的声音事件检测研究，特别是针对老年人的福祉。该数据集包含1344个音频文件，总计1342小时，记录了8名55-80岁参与者在家中7天的声音环境。数据集通过部署音频记录系统并开发自动语音移除管道来保护隐私，确保音频记录中不包含可识别的语音信息。该数据集适用于训练和基准测试声音事件检测模型，特别适用于家庭环境中的应用，旨在通过声音监测技术提升老年人的生活质量。

The Sounds of Home dataset was created by the Centre for Vision, Speech and Signal Processing at the University of Surrey. It is designed to support research on sound event detection in smart home applications, with a specific focus on the well-being of older adults. This dataset comprises 1,344 audio files totaling 1,342 hours, capturing the acoustic environments of 8 participants aged 55 to 80 over a 7-day period in their own homes. To safeguard privacy, the dataset was developed using deployed audio recording systems and an automatic speech removal pipeline, ensuring that no identifiable speech content is present in the audio recordings. This dataset is applicable for training and benchmarking sound event detection models, particularly for home-environment-based applications, and aims to enhance the quality of life of older adults through sound monitoring technologies.

提供机构：

视觉、语音和信号处理中心，萨里大学，英国

创建时间：

2024-09-17

搜集汇总

数据集介绍

构建方式

该数据集通过在8名55至80岁参与者的家中部署音频录制系统，进行了为期7天的数据采集。每个家庭中安装了两台AudioMoth设备，这些设备被配置为以48 kHz的采样率记录音频，每小时记录一次，持续约3595秒。录音设备被放置在客厅和厨房等主要活动区域，高度介于1至2米之间，以捕捉日常生活中的声音环境。为了确保数据的隐私合规性，开发了一种自动化的语音移除管道，利用预训练的音频神经网络检测并移除包含语音的片段，同时保留其他声音事件。

使用方法

该数据集适用于开发和基准测试针对家庭环境中声音事件检测的模型。使用者可以通过访问GitHub仓库获取数据集，并利用预处理后的音频文件进行模型训练。数据集中的音频文件已通过自动语音移除管道处理，确保了隐私合规性。研究者可以利用这些数据来探索和优化声音事件检测算法，特别是在老年人居住环境中的应用。此外，数据集的详细环境信息也为模型的环境适应性提供了支持，有助于开发更加精准和鲁棒的音频识别技术。

背景与挑战

背景概述

随着智能家居系统的普及，利用先进的音频机器学习技术提升老年人的生活质量成为一个新兴的研究领域。《Sounds of Home: A Speech-Removed Residential Audio Dataset》数据集由英国萨里大学的视觉、语音与信号处理中心开发，旨在支持智能家庭应用中的声音事件检测研究，特别是针对老年人的福祉。该数据集通过在8名55至80岁参与者的家中部署音频录制系统，收集了为期7天的音频数据，总计1342小时。数据集的核心研究问题是如何在保护隐私的前提下，准确捕捉家庭环境中的日常活动声音，为声音事件检测模型的开发和评估提供支持。

当前挑战

该数据集在构建过程中面临多项挑战。首先，收集大量适合深度学习应用的数据需要长时间录音，这带来了显著的隐私和数据治理问题，特别是在遵守如GDPR等法规的情况下。其次，录音过程必须尽量减少对日常生活的干扰，这要求设备安装和移除时的最小干预。此外，数据集的匿名化处理，特别是语音信息的自动移除，需要开发新的技术解决方案以确保数据隐私合规。最后，如何在不显著减少数据量的情况下，有效区分并移除包含语音的音频片段，是该数据集面临的技术挑战。

常用场景

经典使用场景

在智能家居领域，该数据集被广泛用于声音事件检测（Sound Event Detection, SED）的研究。通过在8名55至80岁参与者的家中部署音频记录系统，收集了长达1342小时的音频数据，这些数据经过自动语音移除处理，确保隐私合规。此数据集特别适用于训练和验证针对家庭环境的声音事件检测模型，尤其是在关注老年人福祉的应用场景中，如智能监控系统、健康监测设备等。

解决学术问题

该数据集解决了在智能家居环境中进行声音事件检测时面临的隐私保护和数据质量问题。通过自动化的语音移除技术，确保了数据集的隐私合规性，同时保留了其他重要的声音事件信息。这为研究人员提供了一个高质量、隐私保护的音频数据集，有助于推动声音事件检测技术在家庭环境中的应用，特别是在关注老年人福祉的智能设备研发中。

实际应用

在实际应用中，该数据集支持开发和优化智能家居系统中的声音事件检测功能。例如，通过分析家庭环境中的声音事件，系统可以自动识别异常情况（如跌倒、火灾等）并及时通知相关人员。此外，该数据集还可用于开发针对老年人的健康监测设备，通过分析日常生活中的声音活动，提供个性化的健康建议和预警服务。

数据集最近研究