UnAV-100
收藏arXiv2023-03-24 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2303.12930v2
下载链接
链接失效反馈官方服务:
资源简介:
UnAV-100是首个基于未剪辑视频的大型音视频数据集,由南方科技大学等机构创建。该数据集包含超过10,000个未剪辑视频,涵盖100种不同的音视频事件类别,总计超过30,000个事件。每个视频平均包含2.8个音视频事件,这些事件通常相互关联,可能在现实生活中同时发生。数据集广泛覆盖人类活动、音乐表演、动物/车辆/工具/自然声音等多个领域。创建过程中,从VGGSound数据集中筛选并下载原始视频,经过手动验证和标注,确保事件的准确性和相关性。UnAV-100数据集旨在推动复杂音视频视频理解的探索,特别是在音视频事件的密集定位和识别方面,解决实际应用中的挑战。
UnAV-100 is the first large-scale untrimmed audio-visual dataset based on unedited videos, created by institutions including Southern University of Science and Technology and others. This dataset contains over 10,000 untrimmed videos, covering 100 distinct audio-visual event categories, with a total of more than 30,000 events. Each video contains an average of 2.8 audio-visual events, which are usually interrelated and may occur simultaneously in real-life scenarios. The dataset extensively covers multiple domains such as human activities, musical performances, animal, vehicle, tool and natural sounds. During the creation process, raw videos were screened and downloaded from the VGGSound dataset, followed by manual verification and annotation to ensure the accuracy and relevance of the events. The UnAV-100 dataset aims to promote research on complex audio-visual video understanding, particularly in dense localization and recognition of audio-visual events, to address challenges in practical applications.
提供机构:
南方科技大学
创建时间:
2023-03-23
搜集汇总
数据集介绍

构建方式
在音频-视觉事件定位领域,现有数据集多基于人工修剪的短视频,难以反映真实场景中多事件并发、时长不一的复杂性。UnAV-100数据集的构建以VGGSound为数据源,通过下载原始长视频并随机裁剪至一分钟以内,确保视频包含原始的10秒片段。随后,研究团队通过众包方式,借助VIA标注工具对视频中所有音频-视觉事件进行精细标注,涵盖事件类别及独立的起止时间戳。为确保标注质量,标注过程经过多轮人工核查,最终从约1.5万视频中筛选出1.079万个高质量样本,形成包含3万余个事件的大规模数据集。
特点
UnAV-100数据集的核心特点在于其真实性与复杂性。作为首个基于未修剪视频的音频-视觉基准数据集,它包含100个事件类别,覆盖人类活动、音乐表演、动物、车辆、工具及自然声音等多个领域。数据集中每个视频平均包含2.8个音频-视觉事件,最多可达23个,且约25%的视频存在事件并发情况。事件时长分布广泛,最短仅0.2秒,最长可达60秒,充分模拟了现实场景中事件的多样性与瞬时性。此外,数据集中事件间存在丰富的时序依赖关系,如雷鸣常伴随降雨,鼓掌多出现于欢呼场景,为模型学习上下文关联提供了宝贵资源。
使用方法
UnAV-100数据集主要用于密集音频-视觉事件定位任务,该任务要求模型在未修剪视频中同时识别并定位所有音频-视觉事件。使用该数据集时,通常需提取视频的视觉与音频特征,例如采用I3D网络提取视觉特征,VGGish模型提取音频特征,并将两者在共享嵌入空间中对齐。模型架构需支持多尺度跨模态感知,以捕捉不同时长的事件,并整合时序依赖建模来学习事件间的关联。训练过程中,采用联合分类与回归的损失函数,如焦点损失用于分类,广义IoU损失用于边界回归。推理阶段,模型输出每个时间戳的事件类别概率及时间边界,并通过多类别Soft-NMS后处理消除冗余检测,最终实现端到端的密集事件定位。
背景与挑战
背景概述
在多媒体理解领域,机器如何整合音频与视觉等多模态信息以全面解析视频内容,始终是极具挑战性的核心问题。2023年,由南方科技大学、伯明翰大学及香港大学等机构的研究团队联合发布了首个基于未修剪视频的大规模视听事件定位数据集UnAV-100。该数据集包含超过一万条未修剪视频,涵盖三十余万个视听事件,涉及人类活动、音乐表演、动物与交通工具等十个广泛领域。其核心研究目标在于推动密集视听事件定位任务的发展,即从长视频中同时定位并识别所有共现的视听事件,以更贴合真实世界的复杂场景。UnAV-100的建立标志着视听事件分析从单一、修剪场景向多元、自然场景的重要演进,为跨模态感知与依赖建模提供了关键的数据基础。
当前挑战
UnAV-100数据集所针对的密集视听事件定位任务,首要挑战在于需在长视频中同时处理多个可能共现、时长差异显著且具有丰富上下文依赖关系的事件,这对模型的细粒度跨模态理解与多尺度时序建模能力提出了极高要求。在数据集构建过程中,研究团队面临诸多困难:从未修剪的原始视频中筛选出具有严格视听对应关系的高质量样本耗时费力;需对视频中所有视听事件进行精确的时间边界标注,且事件时长跨度极大(从0.2秒至60秒);此外,约25%的视频包含同时发生的并发事件,事件间存在复杂的时序依赖(如掌声伴随欢呼、雷声伴随雨声),这些因素均增加了数据标注的复杂度与一致性难度。
常用场景
经典使用场景
在多媒体内容理解领域,UnAV-100数据集为密集音频-视觉事件定位任务提供了核心实验平台。该数据集包含超过一万条未经修剪的长视频,涵盖人类活动、音乐表演、自然声响等多元场景,平均每段视频标注了2.8个音频-视觉事件。研究者利用其丰富的时序标注与多事件并发特性,开发能够同时识别与定位视频中所有跨模态事件的算法模型,尤其适用于对现实世界中复杂视听场景的细粒度解析。
解决学术问题
UnAV-100有效解决了传统音频-视觉事件定位研究中存在的关键局限。以往研究多基于单一事件的修剪短视频,难以反映真实场景中多事件并发、长短不一的复杂情况。该数据集通过提供密集的事件标注与精确的时间边界,推动了学术研究从单一事件分类向多事件实例级定位的范式转变,促进了跨模态融合、时序依赖建模等核心问题的深入探索,为构建更鲁棒的视听理解系统奠定了数据基础。
衍生相关工作
基于UnAV-100数据集,研究者已衍生出一系列经典工作,主要集中在新型网络架构的设计与评估。例如,原论文提出的跨模态金字塔Transformer编码器与时序依赖建模机制,已成为处理多尺度、并发事件的代表性基线。后续研究在此基础上,进一步探索了更高效的跨模态对齐方法、弱监督学习范式以及针对极短事件的检测技术,持续推动着密集音频-视觉事件定位这一前沿方向的发展与完善。
以上内容由遇见数据集搜集并总结生成



