Anatomy of Video Editing (AVE)

Name: Anatomy of Video Editing (AVE)
Creator: Adobe Research 和 KAIST
Published: 2022-07-21 14:53:02
License: 暂无描述

arXiv2022-07-21 更新2024-06-21 收录

下载链接：

https://github.com/dawitmureja/AVE.git

下载链接

链接失效反馈

官方服务：

资源简介：

Anatomy of Video Editing (AVE) 数据集是由Adobe Research和KAIST共同创建的大型数据集，专注于电影编辑领域。该数据集包含从5,591个电影场景中提取的196,176个镜头，每个镜头都附有与电影摄影相关的超过150万个详细标签，如镜头大小、角度、类型等。AVE数据集的目的是推动AI在视频编辑中的应用，特别是在自动镜头组织和辅助视频组装方面。通过这些详细的标签，研究人员可以开发和测试新的算法，以提高视频编辑的自动化水平，从而帮助编辑者更高效地完成工作。数据集的应用领域包括但不限于电影编辑技术、视频内容分析和自动化视频制作。

Anatomy of Video Editing (AVE) dataset is a large-scale dataset co-created by Adobe Research and KAIST, focusing on the domain of cinematic video editing. It contains 196,176 shots extracted from 5,591 film scenes, with over 1.5 million detailed cinematography-related tags attached to each shot, including shot size, camera angle, shot type and others. The goal of the AVE dataset is to advance the application of AI in video editing, particularly in automatic shot organization and assisted video assembly. Leveraging these detailed tags, researchers can develop and test novel algorithms to enhance the automation level of video editing, thus helping editors accomplish their work more efficiently. The application scenarios of this dataset cover but are not limited to cinematic editing technology, video content analysis and automated video production.

提供机构：

Adobe Research 和 KAIST

创建时间：

2022-07-20

搜集汇总

数据集介绍

构建方式

在电影剪辑领域，人工智能辅助编辑技术正逐步重塑创作流程。Anatomy of Video Editing (AVE) 数据集的构建基于对电影场景的深度解构，从公开的5591个电影场景中提取了196,176个镜头，并由专业剪辑师团队进行精细标注。构建过程首先利用预训练的镜头边界检测器对视频进行初步分割，随后由15名专业剪辑师验证边界准确性，并按摄像机设置对镜头进行分组。最终，每个镜头被标注了八项电影摄影属性，包括镜头尺寸、拍摄角度、镜头类型等，共计生成超过150万条标签，同时记录了场景的镜头序列构成与摄像机设置信息。

使用方法

该数据集配套的基准测试套件定义了五项核心任务，以推动AI辅助视频编辑的研究。在自动素材组织方面，任务包括镜头属性分类与摄像机设置聚类，旨在实现对镜头内容的智能标注与归档。在辅助视频组装方面，任务涵盖镜头序列排序、下一镜头选择及缺失镜头属性预测，旨在学习电影编辑中的叙事与节奏模式。研究方法上，基准测试提供了多任务学习、对比学习及特征聚类等多种现代机器学习框架，并针对长尾分布等问题引入了对数调整等技术。数据集已按场景划分为训练、验证与测试集，确保评估的公正性，相关代码已公开以促进复现与拓展。

背景与挑战

背景概述

随着机器学习技术在视频编辑领域的深入应用，Adobe Research与KAIST的研究团队于2022年联合推出了Anatomy of Video Editing（AVE）数据集，旨在推动AI辅助视频编辑的研究进程。该数据集聚焦于超越视觉特效的传统视频编辑任务，如自动素材组织与辅助视频组装。基于5591个电影场景，研究团队标注了超过150万条与电影摄影学相关的概念标签，涵盖了196176个镜头的八种属性，包括镜头尺寸、角度、类型等，并恢复了场景的镜头序列结构与摄像机设置。AVE的建立填补了计算机视觉领域在理解电影摄影概念与编辑模式方面的空白，为自动素材分类与编辑决策提供了大规模、细粒度的基准数据，对促进智能视频编辑工具的发展具有重要影响。

当前挑战

AVE数据集致力于解决AI辅助视频编辑中的核心挑战，主要包括自动素材组织与视频组装两大领域问题。在素材组织方面，数据集中镜头属性的长尾分布使得分类模型容易偏向高频类别，需通过逻辑调整等技术平衡各类别性能；同时，音频源分类等细粒度任务因类别间模糊性而识别困难。在视频组装方面，镜头排序任务因相邻镜头常来自不同摄像机设置，语义与几何对应关系较弱，导致排序模式学习极具挑战性；此外，编辑决策的主观性与艺术性使得镜头序列存在多种合理顺序，增加了预测难度。数据构建过程中，需对大量电影场景进行镜头分割与属性标注，涉及专业电影摄影知识的准确应用与人工校验，确保了标注质量与一致性。

常用场景

经典使用场景

在电影剪辑与人工智能交叉领域，Anatomy of Video Editing (AVE) 数据集为研究AI辅助视频编辑提供了关键资源。该数据集通过对电影场景中超过19.6万个镜头进行精细标注，涵盖了镜头尺寸、角度、类型、运动等八项电影摄影属性，构建了丰富的镜头级语义标签体系。其经典使用场景聚焦于自动镜头组织与智能剪辑序列生成，研究者可利用该数据集训练模型，实现对电影镜头属性的自动分类与聚类，进而模拟专业剪辑师在镜头选择与排序中的决策过程。

解决学术问题

AVE数据集有效解决了视频编辑研究中长期存在的任务定义模糊与数据匮乏问题。传统研究多集中于视觉特效生成，而AVE将关注点扩展至镜头组织与剪辑序列理解等核心编辑环节。通过提供大规模、细粒度的镜头属性标注，该数据集支持多任务学习框架，帮助模型克服长尾分布带来的分类偏差。其定义的五个基准任务——如镜头属性分类、镜头序列排序等——为量化评估AI在剪辑理解方面的能力提供了标准化平台，推动了计算机视觉与电影语言学的深度融合。

实际应用

在实际应用层面，AVE数据集为智能视频编辑工具的开发奠定了坚实基础。基于其训练的模型可集成至专业剪辑软件，实现镜头素材的自动标签化与分类归档，大幅提升后期制作中的素材管理效率。在辅助剪辑场景中，系统能够根据上下文推荐合适的镜头顺序或预测缺失镜头的属性，为剪辑师提供创意参考。此外，该数据集还可用于教育领域，帮助初学者通过分析电影镜头模式理解剪辑语法，或用于影视内容分析平台，自动识别影片的摄影风格与叙事结构。

数据集最近研究