WE-LIVE

Name: WE-LIVE
Creator: 马德里卡洛斯三世大学信号理论与通信系
Published: 2024-12-11 00:34:08
License: 暂无描述

arXiv2024-12-11 更新2024-12-12 收录

下载链接：

http://arxiv.org/abs/2412.07648v1

下载链接

链接失效反馈

官方服务：

资源简介：

WE-LIVE数据集是由马德里卡洛斯三世大学信号理论与通信系创建的，旨在收集真实世界环境中的音频数据，特别是女性在日常生活中的情感和情境反应。数据集包含14名用户的音频、生理信号、GPS定位数据以及自我标注的情感和情境标签，总时长约为一周。数据集的创建过程涉及多模态数据的采集和标注，旨在通过自监督学习方法分析音频场景中的时空特征，特别是用于检测异常情境（如暴力环境）。该数据集的应用领域主要集中在情感计算和性别暴力风险预测。

The WE-LIVE dataset was developed by the Department of Signal Theory and Communications at Carlos III University of Madrid. It is designed to collect audio data from real-world environments, specifically capturing emotional and situational responses of women during daily life. The dataset includes audio recordings, physiological signals, GPS location data, and self-annotated emotional and situational labels from 14 users, with a total duration of approximately one week. The creation of this dataset involves the collection and annotation of multimodal data, with the objective of analyzing spatiotemporal features in audio scenes through self-supervised learning approaches, particularly for detecting anomalous situations such as violent environments. The primary application domains of this dataset are affective computing and gender-based violence risk prediction.

提供机构：

马德里卡洛斯三世大学信号理论与通信系

创建时间：

2024-12-11

搜集汇总

数据集介绍

构建方式

WE-LIVE数据集通过在真实世界环境中收集音频数据构建而成，涵盖了多样化的场景。该数据集由14名用户在约一周的时间内几乎连续记录的音频、生理信号、GPS坐标以及自我标注的情绪和情境标签组成。为了确保数据的多样性和真实性，用户在日常活动中自由移动，记录设备通过蓝牙连接到移动设备，数据随后传输至加密服务器。此外，用户还通过填写标准问卷提供了日常活动的详细信息，这些信息由专业心理学家进行分类和分析。

特点

WE-LIVE数据集的显著特点在于其真实性和多样性。数据集包含了室内外多种环境下的音频记录，涵盖了家庭、工作场所、交通工具等多种情境。此外，数据集还包含了用户的自我标注情绪和情境标签，这些标签为研究提供了丰富的上下文信息。尽管GPS数据存在一定的稀疏性和不准确性，但通过结合自我报告的情境标签，数据集仍然能够有效支持对不同声学场景的分析和分类。

使用方法

WE-LIVE数据集可用于声学场景分析、情绪检测以及异常情境（如暴力）的识别。研究者可以通过使用预训练的声学事件检测模型（如YAMNet）对音频数据进行分类，并结合TF-IDF和Node2Vec等自然语言处理技术生成声学事件的向量表示。随后，可以使用变分自编码器（VAE）对这些向量进行进一步处理，以生成连续的潜在空间表示，从而实现对不同声学场景的区分和分类。通过t-SNE等降维算法，研究者可以直观地观察和分析数据在潜在空间中的分布情况。

背景与挑战

背景概述

WE-LIVE数据集由西班牙马德里卡洛斯三世大学信号理论与通信系的研究团队创建，旨在通过收集真实世界环境中的音频数据，结合稀疏的GPS坐标、自我标注的情绪和情境标签，推动声学场景分析领域的发展。该数据集的主要研究目标是利用自监督学习范式，从音频数据中提取时空潜在表示，进而实现对暴力（异常）情境的声学检测。WE-LIVE数据集的构建基于其前身WEMAC数据集，包含约一周的几乎连续录音，涵盖14名用户的音频、生理信号、地理位置信号及自我报告的情境标签。该数据集的创建不仅为声学场景分析提供了新的研究方向，还为情感计算和性别暴力（GBV）风险预测提供了重要的数据支持。

当前挑战

WE-LIVE数据集在构建和应用过程中面临多项挑战。首先，数据集的录音环境为真实世界，用户的空间轨迹不可预测，且GPS信号因电池消耗问题无法持续传输，导致位置标签的准确性受限，进而影响基于位置的声学场景分析。其次，音频数据的多样性和复杂性使得声学事件的检测和分类变得困难，尤其是在使用预训练模型如YAMNet时，可能因设备放置或环境噪声导致系统性误分类。此外，情感标签的稀疏性使得自监督学习成为必要，但这也增加了模型训练的复杂性。最后，如何在有限的标注数据基础上，通过自监督学习提取有效的时空潜在表示，是该数据集面临的核心挑战之一。

常用场景

经典使用场景

WE-LIVE数据集的经典使用场景主要集中在声学场景的时空分析上。通过结合音频记录、稀疏的GPS坐标以及自注释的情绪和情境标签，研究者能够将每个音频片段与其对应的位置关联起来，进而分析不同环境中的声学特征。这种分析不仅限于室内外环境的区分，还包括地铁等特定场景的声学特性研究。

解决学术问题

WE-LIVE数据集解决了声学场景分析中的多个学术问题，特别是在无监督学习框架下，如何从野外音频数据中提取时空潜在表示。通过生成声学嵌入并使用自监督学习范式，研究者能够构建一个连续的潜在空间，用于区分不同的声学场景。这一方法为声学环境中的异常检测（如暴力场景的识别）提供了新的研究方向，具有重要的学术意义。

衍生相关工作

WE-LIVE数据集的发布催生了一系列相关研究工作，特别是在声学事件检测和自监督学习领域。例如，基于YAMNet和PANNs的声学事件分类模型被广泛应用于该数据集的分析中，进一步推动了声学场景分类技术的发展。此外，VAE（变分自编码器）在该数据集上的应用也为声学场景的潜在空间建模提供了新的思路，促进了声学与情感计算的交叉研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集