five

SHOT

收藏
arXiv2023-04-13 更新2024-06-21 收录
下载链接:
https://github.com/wentaozhu/AutoShot.git
下载链接
链接失效反馈
官方服务:
资源简介:
SHOT数据集是由快手科技收集并发布的,包含853个完整的短视频,用于短视频镜头边界检测。数据集包含11,606个镜头标注,其中2,716个高质量的镜头边界标注分布在200个测试视频中。该数据集的创建旨在推动短视频理解任务的发展,特别是针对短视频镜头边界检测的挑战。数据集中的视频来自广泛使用的短视频平台,视频长度平均为39.5秒,镜头长度平均为2.59秒,适用于研究短视频中的快速镜头转换和复杂场景变化。

The SHOT Dataset was collected and publicly released by Kuaishou Technology, comprising 853 full-length short videos for the task of short-video shot boundary detection. It encompasses 11,606 shot annotations, among which 2,716 high-quality shot boundary annotations are distributed across 200 test videos. This dataset was created to advance the development of short-video understanding tasks, particularly addressing the challenges in short-video shot boundary detection. The videos in the dataset are sourced from widely used short-video platforms. The average duration of the videos is 39.5 seconds, and the average shot length is 2.59 seconds, making it suitable for research on rapid shot transitions and complex scene changes in short videos.
提供机构:
快手科技
创建时间:
2023-04-13
搜集汇总
数据集介绍
main_image_url
构建方式
在短视频内容分析领域,SHOT数据集的构建体现了对高质量标注资源的迫切需求。该数据集从主流短视频平台收集了853个完整短视频,共计960,794帧,并通过专业标注流程生成了11,606个镜头边界标注。构建过程中,研究团队采用了基于视频缩略图的标注策略,将每帧图像统一缩放至48×27像素,并在左上角自适应显示帧号以提升标注效率。为确保标注质量,数据集分为训练集与测试集,其中测试集的200个视频经过两轮专家标注,最终包含2,716个高质量镜头边界标注,并通过严格的质量控制流程将标注错误率控制在较低水平。
特点
SHOT数据集在短视频镜头边界检测领域展现出鲜明的独特性。与传统的长视频数据集相比,SHOT中视频平均时长仅为39.5秒,镜头平均长度约2.59秒,体现了短视频内容节奏快、镜头转换频繁的特点。该数据集涵盖了复杂渐变过渡、垂直三元结构视频以及虚拟场景游戏视频等多种具有挑战性的镜头转换类型,这些场景在传统数据集中较为罕见。数据集的标注不仅记录了每个镜头的起止帧号,还专门标注了渐变过渡区间,为模型训练提供了更精细的时序边界信息。
使用方法
SHOT数据集为短视频镜头边界检测算法的开发与评估提供了标准化基准。研究者可通过公开获取的数据集文件,获得视频文件及其对应的镜头边界标注文本文件,其中每行标注了镜头的起始帧和结束帧编号。在模型训练时,可采用随机拼接镜头的策略构建训练样本,每样本包含60帧图像。评估阶段需遵循与ClipShots数据集一致的协议:检测到的边界帧与标注帧相差不超过2帧即视为正确检测,对于渐变过渡区域,只要检测帧位于过渡区间内即可判定为正确。数据集已划分明确的训练集与测试集,支持端到端的模型训练与性能验证。
背景与挑战
背景概述
随着5G时代的到来,短视频因其内容生动、传播迅速而成为社交媒体主流,对视频内容理解与创作提出了更高要求。在此背景下,快手科技、德克萨斯大学奥斯汀分校及康奈尔大学的研究团队于2023年共同发布了SHOT数据集,专注于短视频镜头边界检测这一核心任务。该数据集包含853个完整短视频及11,606个镜头标注,旨在解决传统长视频数据集在短视频场景中因镜头长度、过渡模式及内容动态差异所导致的不适配问题,为视频智能创作、场景分割等应用提供了关键数据支撑,推动了计算机视觉领域在时序分析方向的发展。
当前挑战
SHOT数据集所针对的镜头边界检测任务,在短视频领域中面临独特挑战:一是短视频镜头长度普遍短于六秒,且常包含复杂渐变过渡、垂直三元结构及虚拟场景变化,这些因素使得边界检测极易出现误判或漏检;二是在数据构建过程中,标注工作因视频帧数庞大、镜头定义主观性强而异常繁重,研究团队需设计缩略图标注流程并实施多轮专家审核,以将标注错误率控制在2%以内,确保测试集标注的高质量与一致性。
常用场景
经典使用场景
在短视频内容理解与智能创作领域,SHOT数据集为镜头边界检测任务提供了精准的基准。该数据集收录了853条完整短视频及11,606个镜头标注,特别针对短视频场景中镜头切换频繁、过渡复杂的特点进行了优化。其经典使用场景在于为学术界和工业界提供标准化的评估平台,支持各类深度学习模型在短视频镜头分割任务上的性能验证与比较。通过提供高质量、大规模且具有挑战性的标注数据,SHOT使得研究人员能够系统性地探索短视频中镜头边界的检测算法,尤其是在处理复杂渐变过渡、虚拟场景变化及垂直三元结构视频等独特挑战时,展现出不可替代的价值。
解决学术问题
SHOT数据集有效解决了短视频时代镜头边界检测领域的关键学术问题。传统数据集如BBC、RAI等主要针对长视频或纪录片场景,其镜头节奏缓慢、过渡平缓,难以适应短视频快节奏、多变化的特性。SHOT通过提供平均时长仅39.5秒、平均镜头长度2.59秒的短视频样本,填补了该领域的数据空白。它使得研究者能够深入探究短视频特有的镜头动力学,如复杂组合渐变、游戏虚拟场景的剧烈帧内变化等难题。该数据集的发布推动了神经网络架构搜索等技术在镜头检测任务中的应用,催生了如AutoShot等先进模型,显著提升了检测精度与泛化能力。
衍生相关工作
SHOT数据集的发布催生了一系列重要的衍生研究工作。以该数据集为基础,研究者提出了AutoShot这一基于神经架构搜索的先进检测模型,其在SHOT上相比TransNetV2提升了4.2%的F1分数。这项工作进一步推动了镜头检测领域对3D卷积网络与Transformer融合架构的探索。同时,SHOT也促进了跨数据集泛化研究,验证了在短视频数据上训练的模型在ClipShots、BBC等传统长视频数据集上同样具有优越性能。这些衍生工作不仅深化了对短视频镜头特性的理解,也为多场景、多模态的视频内容分析提供了新的方法论启示,持续推动着计算机视觉与多媒体处理领域的边界拓展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作