AVE-PM
收藏arXiv2025-04-09 更新2025-04-11 收录
下载链接:
http://arxiv.org/abs/2504.06884v1
下载链接
链接失效反馈官方服务:
资源简介:
AVE-PM是一个专门为 portrait 模式短视频设计的音频事件定位数据集,包含25335个10秒视频剪辑,涵盖86个细粒度类别,具有帧级注释。该数据集由抖音平台上的用户生成内容构成,反映了不受约束的用户生成内容的真实情况。数据集的构建过程包括从抖音平台收集原始视频,通过众包方式进行注释,并最终切分成10秒的剪辑。该数据集旨在推动移动-centric视频内容时代的音频事件定位研究。
AVE-PM is an audio event localization dataset specifically designed for portrait-mode short videos. It includes 25,335 10-second video clips spanning 86 fine-grained categories, with frame-level annotations. This dataset is sourced from user-generated content on the Douyin (TikTok) platform, reflecting the authentic real-world scenarios of unconstrained user-generated content. The construction pipeline of this dataset involves collecting raw videos from the Douyin platform, performing annotations via crowdsourcing, and finally splitting the collected content into 10-second video clips. This dataset aims to advance audio event localization research in the era of mobile-centric video content.
提供机构:
武汉大学
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
AVE-PM数据集是首个专为纵向模式短视频设计的音频-视觉事件定位数据集,包含25,335个10秒视频片段,涵盖86个细粒度类别。数据来源于抖音平台,确保真实反映用户生成内容的特点。在数据标注过程中,采用众包方式,通过自定义视频标注工具,结合波形图和频谱图进行精确的事件起始和结束时间标注,并标记背景音乐的存在。为确保标注质量,约20%的视频由至少两名标注者独立标注,存在较大差异时引入第三名标注者进行仲裁。
特点
AVE-PM数据集具有鲜明的纵向模式短视频特征,94.7%的视频采用9:16的纵向比例,内容聚焦于主体(通常是人),背景信息较少且第一人称视角内容较多。音频方面,数据集包含复杂的音频组合,如重叠音效、旁白和背景音乐,这些特点为音频-视觉事件定位带来了独特挑战。数据集的另一个显著特点是其细粒度的事件类别划分和帧级标注,为研究提供了丰富的信息。此外,数据集还提供了背景音乐标记,使研究者能够针对音频噪声问题进行专门研究。
使用方法
AVE-PM数据集可用于音频-视觉事件定位任务的训练和评估。研究者可以使用该数据集来开发和测试针对纵向模式短视频的专门算法。在使用时,建议考虑数据预处理策略,如随机裁剪和Inception-style调整大小,以应对纵向视频的特殊比例。对于包含背景音乐的样本,可采用专门的背景抑制网络或模态贡献评分来分析音频信息的有用性。数据集已按6:2:2的比例划分为训练集、验证集和测试集,确保各子集在类别分布上保持一致,便于进行公平的模型比较和评估。
背景与挑战
背景概述
AVE-PM数据集由武汉大学网络空间安全学院的研究团队于2025年推出,是首个专注于竖屏短视频中视听事件定位任务的多模态基准数据集。随着智能手机普及,竖屏短视频已成为网络内容的主要形式,其特有的纵向构图和复杂音频构成(如叠加音效、旁白和背景音乐)为传统视听事件定位方法带来全新挑战。该数据集包含25,335个10秒视频片段,涵盖86个细粒度类别,并带有帧级事件边界标注,填补了视听事件定位研究在移动端内容时代的空白。数据集源自在抖音平台采集的真实用户生成内容,为研究社区提供了探索竖屏视频独特特性的基础平台。
当前挑战
AVE-PM数据集面临的核心挑战体现在两个维度:领域问题层面,竖屏视频的纵向构图导致空间先验分布与横屏视频存在显著差异,主体聚焦特性使背景信息减少,而复杂的多层音频构成(平均18.7%视频含背景音乐)干扰事件声学特征的提取;构建过程中,研究团队需解决真实用户内容的质量控制难题,包括处理可变视频时长(8秒至1分钟)、设计抗干扰的音频标注方案,以及建立针对纵向构图的标注规范。实验表明,现有最优视听定位模型在跨模式评估中平均性能下降18.66%,凸显了开发适应竖屏视频特性的新型算法的紧迫性。
常用场景
经典使用场景
AVE-PM数据集专为纵向模式短视频中的视听事件定位(AVEL)研究而设计,其经典使用场景包括在复杂音频背景下识别和定位特定事件。由于短视频通常包含重叠的音效、旁白和背景音乐,AVE-PM通过提供精细的帧级标注,帮助研究人员在真实场景中测试和改进模型的多模态融合能力。
衍生相关工作
围绕AVE-PM衍生的经典工作包括跨模态背景抑制网络(CMBS)和潜在视听混合适配器(LAVISH)等创新架构。这些研究通过改进预处理策略(如随机裁剪)和模态贡献分析,显著提升了模型在噪声环境下的鲁棒性,推动了移动端多模态学习的发展。
数据集最近研究
最新研究方向
随着智能手机和社交媒体的普及,竖屏短视频已成为在线视频内容的主要形式,其独特的空间布局和复杂的音频构成给多模态场景理解带来了新的挑战。AVE-PM作为首个专为竖屏短视频设计的视听事件定位数据集,填补了该领域的研究空白。前沿研究主要聚焦于三个方向:跨模态评估揭示了横屏与竖屏视频间存在显著的领域差异,现有模型在跨模式测试中平均性能下降18.66%;空间先验分析发现竖屏视频的视觉信息更集中于画面下半部分,这种独特的空间分布需要针对性建模;复杂音频构成研究则表明背景音乐会降低模型对音频模态的依赖,但专门设计的网络架构仍能有效利用含噪声的音频信息。这些发现为移动互联网时代的视听事件定位研究提供了新的基准和方向,推动着自适应预处理策略和鲁棒多模态融合方法的创新发展。
相关研究论文
- 1Audio-visual Event Localization on Portrait Mode Short Videos武汉大学 · 2025年
以上内容由遇见数据集搜集并总结生成



