AVE-Order, ActivityNet-Order
收藏arXiv2025-03-25 更新2025-03-26 收录
下载链接:
https://github.com/litchiar/ShotSeqBench
下载链接
链接失效反馈官方服务:
资源简介:
本文介绍了两个视频剪辑中的镜头序列排序任务的新基准数据集:AVE-Order和ActivityNet-Order。AVE-Order基于AVE数据集构建,而ActivityNet-Order基于ActivityNet数据集构建。这两个数据集为公开可用,包含了视频文件和相应的镜头分割,以供研究者准确分析时间关系和叙事逻辑。这些数据集的创建旨在促进视频剪辑中镜头序列排序任务的研究,解决AI辅助视频编辑中的挑战。
This paper presents two novel benchmark datasets for the shot sequence ordering task in video editing: AVE-Order and ActivityNet-Order. AVE-Order is constructed based on the AVE dataset, while ActivityNet-Order is derived from the ActivityNet dataset. Both datasets are publicly available, containing video files and their corresponding shot segmentations to enable researchers to accurately analyze temporal relationships and narrative logic. The creation of these datasets is designed to advance research on the shot sequence ordering task in video editing and resolve the challenges in AI-assisted video editing.
提供机构:
上海大学
创建时间:
2025-03-23
搜集汇总
数据集介绍

构建方式
在视频媒体迅速发展的背景下,AVE-Order和ActivityNet-Order数据集的构建填补了AI辅助视频编辑领域公开基准数据集的空白。AVE-Order基于AVE数据集进行重组,通过随机均匀分布对镜头序列进行打乱并生成相应的排序标签,确保训练集、验证集和测试集的场景无重叠。ActivityNet-Order则从ActivityNet 100数据集中精选高质量用户上传内容,利用Transnet v2模型进行镜头分割,并经过清洗去除无效片段,最终生成14,490个镜头序列样本。
特点
AVE-Order和ActivityNet-Order数据集的特点在于其专注于镜头序列排序(SSO)任务,为研究视频叙事的逻辑性和视觉连贯性提供了丰富资源。AVE-Order包含5,537个场景和63,185个序列,平均序列时长为10.99秒;ActivityNet-Order则涵盖4,052个场景和23,673个序列,平均时长为20.80秒。两个数据集均采用Kendall Tau距离作为评估指标,能够有效量化预测序列与真实序列之间的排序差异。此外,AVE-Meta数据集通过整合IMDb的电影元数据(如类型、导演、发行年份)和镜头标签,为镜头排序任务提供了专业先验知识。
使用方法
使用这些数据集时,研究者可基于TSN方法进行训练,采用随机均匀帧采样策略,每个镜头分为8个均匀段并随机选择一帧作为输入。测试阶段则固定每段中间帧作为输入。数据集支持多种视频分类模型(如SlowFast、R3D、MViT)的评估,特别适用于结合KTD-CE损失函数和Cinematology Embedding方法的研究。用户可通过GitHub仓库获取完整数据,并按照论文中的7:1:2比例划分训练、验证和测试集,以确保评估的客观性。
背景与挑战
背景概述
随着短视频平台的兴起,视频制作需求大幅增长,但高质量视频创作仍高度依赖专业的剪辑技巧和对视觉语言的深刻理解。为应对这一挑战,AI辅助视频编辑中的镜头序列排序(SSO)任务应运而生,成为提升视频叙事和整体观看体验的关键方法。然而,该领域的发展因缺乏公开的基准数据集而受到阻碍。为此,上海大学的研究团队于2025年提出了AVE-Order和ActivityNet-Order两个新颖的基准数据集,并引入了Kendall Tau距离作为SSO任务的评估指标。这些数据集的构建基于现有的AVE和ActivityNet数据集,通过重新标注和组织,填补了SSO任务在数据资源上的空白,为相关研究提供了重要支持。
当前挑战
在镜头序列排序(SSO)任务中,主要挑战包括如何准确捕捉镜头间的时序关系和叙事逻辑,以及如何在缺乏专业标注的情况下构建高质量的数据集。具体而言,SSO任务需要解决镜头排列组合的复杂性,尤其是当镜头数量增加时,排列组合呈阶乘级增长,极大地增加了任务的难度。此外,构建数据集时面临版权限制和标注成本高昂的问题,许多现有数据集仅提供特征文件或视频帧,无法满足SSO任务的需求。研究团队通过重新标注和组织现有数据集,并引入电影元数据和镜头标签作为先验知识,部分缓解了这些问题,但仍需进一步探索更高效的标注方法和更通用的评估指标。
常用场景
经典使用场景
AVE-Order和ActivityNet-Order数据集在AI辅助视频编辑领域中被广泛应用于镜头序列排序(SSO)任务的研究。这些数据集通过提供完整的视频文件和对应的镜头分割,使得研究者能够深入分析镜头间的时序关系和叙事逻辑。在经典使用场景中,研究者利用这些数据集训练和评估模型,以自动将无序的镜头片段排列成连贯的时序序列,从而提升视频的叙事流畅性和视觉吸引力。
实际应用
在实际应用中,AVE-Order和ActivityNet-Order数据集为短视频平台和视频编辑工具提供了强大的技术支持。例如,自动化视频编辑工具可以利用这些数据集训练的模型,快速生成具有专业叙事结构的视频内容。此外,电影制作和广告行业也可以通过这些数据集优化镜头排列,提升作品的视觉表现力和叙事效果。
衍生相关工作
AVE-Order和ActivityNet-Order数据集衍生了一系列经典研究工作,包括基于Kendall Tau距离的损失函数(KTD-CE Loss)和电影学嵌入(Cinematology Embedding)方法。这些方法通过结合镜头类型和电影元数据作为先验知识,显著提升了镜头序列排序的准确性。此外,数据集还推动了视频理解、自监督学习和多模态预训练等领域的研究进展。
以上内容由遇见数据集搜集并总结生成



