SketchLongVideo

Name: SketchLongVideo
Creator: 悉尼大学; 查尔斯·斯特尔特大学
Published: 2026-05-22 19:16:05
License: 暂无描述

arXiv2026-05-22 更新2026-05-26 收录

下载链接：

https://github.com/LouckXu/DrawVideo

下载链接

链接失效反馈

官方服务：

资源简介：

SketchLongVideo是由悉尼大学和查尔斯·斯特尔特大学的研究团队构建的首个面向草图引导文本到长视频生成的数据集。该数据集整合了公开在线动画视频、AnimeShooter数据集衍生的动画内容以及AI生成的关键帧序列，通过镜头检测、关键帧提取、结构化视觉语言识别和草图转换等流程，将原始视频转化为对齐的（草图、外观提示、运动提示）三元组数据。其构建过程采用非学习性的确定性草图转换方法，确保了结构约束的可复现性和高效处理能力，旨在为故事板驱动的可控长视频生成提供关键数据支持，解决导演导向创作中稀疏草图控制与叙事一致性结合的挑战。

SketchLongVideo is the first dataset dedicated to sketch-guided text-to-long-video generation, developed by research teams from the University of Sydney and Charles Sturt University. This dataset integrates publicly accessible online animated videos, animated content derived from the AnimeShooter dataset, and AI-generated keyframe sequences. Through workflows encompassing shot detection, keyframe extraction, structured visual-language recognition, and sketch conversion, it converts raw videos into aligned triplet data consisting of (sketch, appearance prompt, motion prompt). The construction process employs a non-learning deterministic sketch conversion method, which guarantees the reproducibility of structural constraints and efficient processing performance. It is designed to offer critical data support for storyboard-driven controllable long-video generation, resolving the challenge of integrating sparse sketch control and narrative consistency in director-oriented creative workflows.

提供机构：

悉尼大学; 查尔斯·斯特尔特大学

创建时间：

2026-05-22

原始信息汇总

数据集概述

数据集名称

SketchLongVideo Dataset

数据集描述

该数据集是 DrawVideo 项目的重要组成部分，主要用于支持与草图视频相关的研究与开发工作。

访问方式

数据集托管在 Microsoft SharePoint 平台，可通过以下链接获取： https://unisyd-my.sharepoint.com/:f:/g/personal/chuanzhi_xu_sydney_edu_au/IgDJVV8IRQmbSLkgMj7NnchaAS29iBpAs3t2L4Lkr0-0qLQ?e=BhsbWB

搜集汇总

数据集介绍

构建方式

SketchLongVideo数据集专为草图引导的文本到长视频生成任务而构建。其构建流程从三个互补的数据源出发：公开可用的在线动画视频、AnimeShooter数据集衍生的动画视频，以及文本提示驱动的AI生成关键帧。对于视频源，首先利用PySceneDetect进行镜头边界检测，将连续视频分割为独立的镜头单元，并从每个镜头中提取代表性关键帧。随后，借助LLaVA-OneVision视觉语言模型对关键帧进行结构化识别，分解出主题、风格、场景和动作四个维度，并通过大语言模型重组为外观提示与运动提示。最后，通过非学习的确定性图像处理管线，将彩色关键帧转化为黑白线条草图，从而形成以草图、外观提示和运动提示为三要素的对齐三元组。

使用方法

该数据集的使用遵循故事板驱动的创作范式。用户首先为每个镜头提供一张手绘黑白草图、一个静态外观提示和一个动态运动提示，其中草图约束姿态与构图，外观提示定义角色身份与视觉风格，运动提示描述镜头级动作语义。生成时，DrawVideo框架先通过Canny-ControlNet将草图着色为彩色参考关键帧，再基于该参考帧和运动提示生成多个衍生关键帧以表征离散动作状态，最后利用Wan2.2的首末帧条件生成器合成相邻关键帧间的局部视频片段。所有独立生成的镜头视频按故事板顺序拼接，即可得到连贯的超长视频。该数据集仅用于非商业学术研究，不重新分发原始视频文件，仅保留处理后的草图与文本标注。

背景与挑战

背景概述

SketchLongVideo 数据集由悉尼大学和查尔斯特大学的研究团队于 2026 年构建，旨在解决草图引导的文本到长视频生成这一前沿课题。其核心研究问题在于如何利用稀疏的故事情节草图、静态外观描述与动态运动提示，实现导演视角下可控的多镜头长视频生成。数据集包含 1,233 个对齐三元组，覆盖 126 个长视频序列，融合了在线动画、AnimeShooter 子集及 AI 生成关键帧三类来源，为评估结构可控性、外观一致性与跨镜头连贯性提供了标准化基准，对推动故事板驱动的内容创作范式具有重要影响力。

当前挑战

该数据集面临的挑战体现在两个层面。领域问题层面，现有文本到视频方法难以精细控制角色姿态、镜头构图与局部运动语义，长视频生成中的身份漂移、背景突变与风格不稳定现象尤为突出。构建过程层面，自动镜头检测对低对比度渐变场景失效，单一关键帧难以完整表征复杂运动，视觉语言模型对罕见角色或模糊动作的识别存在误差，且 AI 生成子集的运动分布难以完全匹配真实动画数据，制约了数据集在高质量可控生成中的泛化能力。

常用场景

经典使用场景

在可控式长视频生成领域，SketchLongVideo的经典使用场景在于为导演导向的叙事性动画创作提供了一种结构化的分镜草图驱动范式。创作者仅需绘制稀疏的黑白故事板草图，并辅以描述静态外观与动态动作的文本提示，即可逐镜头地生成具有精确姿态、构图与空间布局的连续长视频。该数据集通过将每帧视频拆解为（草图、外观提示、运动提示）三元组，有效支撑了从稀疏草图到完整彩色分镜的端到端生成流程，尤其适用于需要显式控制角色姿态、镜头切换与场景演化的影视预可视化与动画分镜设计。

解决学术问题

SketchLongVideo的构建有效解决了当前视频生成领域在长时序语义连贯性与显式结构可控性之间存在的核心矛盾。现有方法多依赖于单一长文本提示或隐式条件进行生成，难以实现对角色姿态、相机构图与镜头级空间布局的精确约束。该数据集通过引入稀疏草图作为几何结构的强控制信号，并配合层次化的分镜驱动生成策略，显著提升了跨镜头身份一致性、帧内视觉稳定性与事件级动作可控性。其意义在于为学术研究提供了一个标准化的基准平台，推动了从叙事规划到视觉合成的全链条可控生成范式的形成。

实际应用

在实际应用中，SketchLongVideo所支撑的技术范式可广泛应用于动画制作、影视预分镜设计、交互式故事板展示与广告创意可视化等领域。动画师或视频创作者仅需勾勒出简单的故事板线条，并附以简短的文字描述，即可迅速生成具有高度语义对齐与视觉连贯性的长视频片段，大幅降低传统逐帧制作的时间与人力成本。此外，该数据集所倡导的草图与文本联合控制机制，还为非专业用户提供了低门槛的创作入口，使视频内容生产更加高效、直观且富有表现力，有望成为未来数字内容创作工具的核心基础设施。

数据集最近研究