EPIC-SOUNDS

Name: EPIC-SOUNDS
Creator: 牛津大学工程科学系视觉几何组
Published: 2023-02-02 02:19:37
License: 暂无描述

arXiv2023-02-02 更新2024-06-21 收录

下载链接：

https://epic-kitchens.github.io/epic-sounds

下载链接

链接失效反馈

官方服务：

资源简介：

EPIC-SOUNDS是一个大规模的音频标注数据集，源自EPIC-KITCHENS-100的音频流，专注于捕捉日常生活中的声音事件。该数据集包含78,400个分类的音频事件段，分布在44个类别中，以及39,200个未分类的音频事件段，总计117,600个音频事件段，覆盖100小时的视频材料。数据集的创建过程涉及通过众包方式对音频事件进行时间和语义标注，特别关注音频与视觉事件的时间和语义一致性差异。EPIC-SOUNDS适用于音频识别和声音事件检测等领域的研究，旨在解决现有模型在仅依赖音频信息识别动作时的局限性。

EPIC-SOUNDS is a large-scale audio annotation dataset derived from the audio streams of EPIC-KITCHENS-100, focusing on capturing sound events in daily life. This dataset contains 78,400 categorized audio event segments distributed across 44 categories, as well as 39,200 uncategorized audio event segments, with a total of 117,600 audio event segments covering 100 hours of video material. The creation of this dataset involves conducting temporal and semantic annotation for audio events via crowdsourcing, with particular attention paid to the discrepancies in temporal and semantic consistency between audio and visual events. EPIC-SOUNDS is applicable to research in fields such as audio recognition and sound event detection, aiming to address the limitations of existing models when recognizing actions relying solely on audio information.

提供机构：

牛津大学工程科学系视觉几何组

创建时间：

2023-02-02

搜集汇总

数据集介绍

构建方式

在音频事件检测领域，构建高质量的数据集需克服视听模态间的语义与时间不对齐问题。EPIC-SOUNDS的构建过程始于从EPIC-KITCHENS-100中提取音频流，并设计了一套精细的众包标注流程。标注者仅听取音频，借助波形图视觉辅助，独立标记可区分声音片段的起止时间，并以自由文本描述引发该声音的动作。针对物体碰撞产生的声音，进一步收集了基于音频感知的物体材质标注，并通过视频验证以确保准确性。随后，通过后处理将自由描述聚类为44个声音类别，并经过多轮人工校验以修正标注误差，最终形成包含7.84万个已分类片段和3.92万个未分类片段的大规模数据集。

特点

EPIC-SOUNDS的核心特点在于其专注于纯粹由音频定义的动作类别，突破了传统多模态数据集中视觉主导的类目体系。该数据集包含44个声音类别，这些类别源自人类对音频的感知描述，而非视觉标签的映射，从而确保了其在音频识别与声音事件检测任务中的内在一致性。数据呈现出自然的长尾分布，涵盖了从瞬时碰撞声到持续烹饪声等多种时间尺度的声音事件。尤为突出的是，数据集明确区分了视听标注在时间边界和语义上的差异，例如包含了仅通过声音可辨识而视觉不可见的动作，为研究视听模态的互补与分歧提供了独特资源。

使用方法

EPIC-SOUNDS主要应用于音频识别与声音事件检测等任务。研究者可利用其提供的精确时间戳和类别标签，训练和评估音频分类模型。数据集遵循EPIC-KITCHENS-100的划分，包含训练、验证和测试集，其中测试集进一步分为识别和检测子任务，后者隐藏时间边界以支持检测挑战。典型的使用流程包括：从原始视频中提取对应时间段的音频，预处理为对数梅尔频谱图作为模型输入。研究已在该数据集上对ASF和SSAST等先进音频编码网络进行了微调和线性探针评估，验证了其作为音频分类基准的有效性。数据集也可用于探索多模态学习，但需注意其音频标签独立于视觉上下文，强调了纯音频监督的重要性。

背景与挑战

背景概述

在多媒体理解领域，视觉与听觉的融合为动作识别等任务提供了丰富线索，然而现有研究常假设视听事件在时间与语义上完全对齐，忽视了现实场景中模态间的复杂差异。EPIC-SOUNDS数据集由英国布里斯托大学等机构的研究团队于2022年构建，其核心研究问题在于探索纯粹基于音频的动作识别与检测，通过从EPIC-KITCHENS-100的自我中心视频中提取音频流，并独立标注时间边界与类别标签，该数据集填补了大规模、细粒度音频动作数据的空白。它不仅推动了音频事件检测与识别模型的发展，还为多模态研究提供了更真实的评估基准，促进了领域对听觉信息独立价值的深入认识。

当前挑战

EPIC-SOUNDS旨在解决的领域挑战在于纯音频动作识别，即仅依靠声音信号区分日常动作，例如区分‘关闭抽屉’与‘拖动物体’等听觉相似事件。由于人类仅凭音频推断精细事件属性的能力有限，数据标注面临显著困难，包括时间边界与视觉动作未对齐、声音描述的主观性与模糊性，以及碰撞物体材料识别的歧义性。在构建过程中，研究团队需设计专门的标注流程，让标注者仅基于音频波形识别可区分片段，并通过后处理将自由描述聚类为44个类别，同时利用视觉信息验证材料标注以确保准确性，这一过程需克服标注一致性、长尾分布以及噪声干扰等多重障碍。

常用场景

经典使用场景

在音频识别与多模态学习领域，EPIC-SOUNDS数据集为研究者提供了探索纯音频动作识别的独特平台。该数据集通过标注音频流中的时间边界和类别标签，专门捕捉日常厨房环境中由动作产生的声音事件。其最经典的使用场景在于训练和评估音频识别模型，如自监督音频谱图变换器（SSAST）和听觉慢快网络（ASF），以验证模型在长尾分布和细粒度声音分类任务上的性能。数据集的设计强调了音频与视觉模态在时间和语义上的不对齐性，促使模型专注于从声音中推断动作类别，而非依赖视觉线索。

衍生相关工作

EPIC-SOUNDS数据集衍生了一系列经典研究工作，主要集中在多模态融合与音频理解领域。例如，基于该数据集的基准实验催生了改进的音频编码器架构，如结合听觉慢快网络的变体，以更好地处理长尾声音类别。同时，研究者利用其时间标注开发了音频事件检测模型，用于定位动作声音的起止时间。数据集还启发了对视觉-音频对齐机制的研究，如通过对比学习减少模态差异，以及探索材料感知的声音合成方法。这些工作共同推动了音频视觉理解向更细粒度和真实场景的应用扩展。

数据集最近研究