Audible623
收藏arXiv2025-06-16 更新2025-06-19 收录
下载链接:
https://github.com/WenlongWan/Audible623
下载链接
链接失效反馈官方服务:
资源简介:
Audible623数据集是一个专门为可听动作时间定位任务设计的数据集,它从Kinetics和UCF101数据集中筛选出包含碰撞声音动作的视频,并对视频中的每个可听动作进行帧级标注。该数据集包含623个视频,平均每个视频250帧,为研究可听动作的时间定位提供了基础。数据集的创建旨在解决视频配音中可听动作的自动标记问题,以提高视频剪辑配音的效率。
The Audible623 Dataset is a specialized dataset designed for the task of audible action temporal localization. It selects videos containing actions accompanied by collision sounds from the Kinetics and UCF101 datasets, and performs frame-level annotations for each audible action in the videos. This dataset includes 623 videos, with an average of 250 frames per video, providing a foundational resource for research on temporal localization of audible actions. The dataset was developed to address the automatic annotation problem of audible actions in video dubbing, so as to improve the efficiency of video clip dubbing.
提供机构:
新加坡管理大学计算与信息系统学院
创建时间:
2025-06-16
原始信息汇总
Audible623数据集概述
数据集基本信息
- 数据集名称: Audible623
- 关联研究: "Action Dubber: Timing Audible Actions via Inflectional Flow"
数据集用途
- 用于支持"Action Dubber"研究中关于通过屈折流定时可听动作的相关工作。
相关资源
- 包含数据集及配套代码。
搜集汇总
数据集介绍

构建方式
Audible623数据集的构建基于Kinetics和UCF101数据集,通过筛选包含可听动作的视频片段,并移除非必要的发声子集。数据收集过程中,研究人员从YouTube及现有动作视频数据集中选取了包含至少一次碰撞事件的视频,如击鼓、网球和掷锤等。为确保标注质量,志愿者通过逐帧检查视频内容,标记可听动作的关键帧,最终形成包含623个视频的数据集,每个视频平均250帧,持续时间在2.3至30.7秒之间。
使用方法
Audible623数据集主要用于可听动作时间定位任务的训练与评估。研究人员可通过帧级标注数据训练模型,以预测视频中可听动作发生的精确时刻。数据集还支持跨领域应用,如重复动作计数和声源定位。使用该数据集时,建议结合运动学分析方法,如光流估计和速度突变检测,以提升模型在时间定位任务中的表现。
背景与挑战
背景概述
Audible623数据集由Wenlong Wan等研究人员于2025年提出,旨在解决视频中可听动作时间定位的问题。该数据集基于Kinetics和UCF101数据集构建,通过筛选包含碰撞声音动作的视频并进行帧级标注,最终包含623个视频。其核心研究问题是识别视频中产生声音的关键动作时刻,为视频自动配音等应用提供技术支持。Audible623的提出填补了传统动作识别与时序动作定位任务在细粒度可听动作分析上的空白,为计算机视觉与音频处理交叉领域的研究提供了重要基准。
当前挑战
Audible623数据集面临的主要挑战包括:1) 在领域问题层面,可听动作定位需要精确捕捉产生声音的瞬时动作变化,这比传统动作识别更具挑战性;2) 在构建过程中,数据集需要从大量视频中筛选出包含明确可听动作的片段,并进行精确到帧的标注,标注过程耗时且需要专业知识。此外,由于可听动作往往只占整个动作过程的很小部分,数据不平衡问题也为模型训练带来困难。
常用场景
经典使用场景
Audible623数据集专注于可见可听动作的时空定位,为计算机视觉领域提供了一种新颖的任务范式。该数据集通过精选包含碰撞声动作的视频片段,如击鼓、网球击球等,为研究者提供了丰富的视觉-听觉关联样本。其经典使用场景包括视频自动配音系统开发,模型能够精准识别动作产生声音的关键帧,显著提升了传统影视配音流程的效率。
解决学术问题
该数据集解决了动作识别与声音定位之间的关键学术问题。传统动作识别方法侧重于语义层面的分类,而Audible623通过标注帧级可听动作时刻,推动了基于运动动力学的细粒度动作分析研究。其创新性体现在将牛顿力学中的速度拐点概念引入计算机视觉,为动作-声音关联建模提供了可量化的运动学先验,弥补了现有数据集在瞬时动作定位上的不足。
实际应用
在影视后期制作领域,该数据集支持智能配音系统的开发,可自动标记拳击击打、工具敲击等动作的精确配音时间点。教育科技领域则应用于体育动作分析,通过识别球类碰撞瞬间辅助训练评估。此外,在无障碍技术中,能为视听障碍者生成动作提示音,增强视频内容的可访问性。
数据集最近研究
最新研究方向
近年来,Audible623数据集在计算机视觉领域引起了广泛关注,特别是在可听动作时间定位任务中。该数据集通过整合Kinetics和UCF101中的关键动作片段,专注于捕捉产生声音的碰撞动作的时空坐标。研究热点主要集中在基于运动学和自监督学习的多模态分析方法上,例如TA2Net架构通过二阶运动导数估计拐点流,实现了无需音频输入的高精度动作定位。这一技术不仅推动了视频自动配音的发展,还在重复动作计数和声源定位等衍生任务中展现出卓越的泛化能力。随着短视频平台和影视工业化需求的增长,该数据集为突破传统手工配音的效率瓶颈提供了关键技术支撑,其创新的时空联合建模范式可能重新定义动作分析领域的研究框架。
相关研究论文
- 1Action Dubber: Timing Audible Actions via Inflectional Flow新加坡管理大学计算与信息系统学院 · 2025年
以上内容由遇见数据集搜集并总结生成



