AnimeShooter
收藏github2025-06-04 更新2025-06-05 收录
下载链接:
https://github.com/qiulu66/Anime-Shooter
下载链接
链接失效反馈官方服务:
资源简介:
AnimeShooter是一个参考引导的多镜头动画数据集,专注于动画领域,具有分层故事脚本和多镜头注释,以及用于一致角色引导的参考图像。数据集收集自YouTube上的大规模多样化动画内容,经过过滤和分段,并使用Gemini-2.0-flash进行注释。
AnimeShooter is a multi-shot animation dataset with reference guidance, focusing on the animation field and featuring layered story scripts, multi-shot annotations, and reference images for consistent character guidance. The dataset is collected from large-scale and diverse animation content on YouTube, filtered and segmented, and annotated using Gemini-2.0-flash.
创建时间:
2025-06-04
原始信息汇总
AnimeShooter 数据集概述
数据集简介
AnimeShooter 是一个用于参考引导视频生成的多镜头动画数据集,专注于动画领域,具有以下关键特征:
- 专注于动画领域
- 为多镜头标注提供分层故事脚本
- 提供参考图像以实现一致的角色指导
数据集收集与标注
- 数据来源:通过关键词(如"short animation"、"cartoon short film")从YouTube获取大规模多样化动画内容
- 处理流程:
- 根据内容和时长筛选视频
- 将视频分割为1分钟片段
- 使用Gemini-2.0-flash进行自上而下的多镜头标注
- 使用Sa2VA分割参考图像
数据集结构
- 下载地址:https://huggingface.co/datasets/qiulu66/AnimeShooter
- 格式:JSON格式,包含以下字段:
video ID:YouTube唯一标识符url:YouTube直接链接fps:原始视频帧率segments:分段对象列表,包含:- 起止帧索引
- 故事脚本(包含故事情节、主要角色、主要场景和镜头细节)
reference images:角色特定参考图像和掩码
相关模型
- AnimeShooterGen:基于Multimodal Large Language Models (MLLMs)和视频扩散模型的参考引导多镜头视频生成模型
- 模型下载:https://huggingface.co/qiulu66/AnimeShooterGen
- 依赖模型:
- NVILA-8B-Video:https://huggingface.co/Efficient-Large-Model/NVILA-8B-Video
- CogVideoX-2B:https://huggingface.co/THUDM/CogVideoX-2b
许可信息
- 数据集:CC BY-NC 4.0 License(仅限学术用途)
- 模型:Apache 2.0 License
- 免责声明:所有视频均来自互联网,版权归原始所有者所有
引用
bash @misc{qiu2025animeshooter, title = {AnimeShooter: A Multi-Shot Animation Dataset for Reference-Guided Video Generation}, author = {Qiu, Lu and Li, Yizhuo and Ge, Yuying and Ge, Yixiao and Shan, Ying and Liu, Xihui}, year = {2025}, url = {https://arxiv.org/abs/2506.03126} }
搜集汇总
数据集介绍

构建方式
在动画制作领域,连贯的多镜头视频生成需要高质量的参考数据支撑。AnimeShooter数据集通过系统化的构建流程实现了这一目标:首先从YouTube平台采集多样化的动画内容,基于关键词筛选出符合要求的视频素材,并将其切割为1分钟时长的叙事单元。采用Gemini-2.0-flash模型进行分层标注,通过自上而下的多镜头标注策略生成故事脚本,同时利用Sa2VA模型提取角色参考图像。数据集构建过程中严格遵循叙事连贯性原则,每个视频段都包含完整的故事线、角色描述和场景信息。
使用方法
研究人员可通过Hugging Face平台获取数据集JSON格式的标注文件,其中包含视频元数据、分层故事脚本和角色参考图像掩码。使用配套提供的Python脚本可实现视频片段切割和参考图像生成。数据集支持多种应用场景:基于参考图像的角色一致性生成、多镜头叙事视频合成、以及结合故事脚本的条件生成。配套的AnimeShooterGen模型提供了基准实现,用户可通过提供的脚本进行模型推理和微调,快速验证参考引导视频生成的新方法。
背景与挑战
背景概述
AnimeShooter数据集由Qiu Lu等研究人员于2025年提出,旨在解决AI生成内容(AIGC)领域中的动画视频生成问题。该数据集专注于动画领域,通过提供层次化的故事脚本和多镜头注释,以及角色参考图像,为生成具有连贯叙事和一致角色的多镜头动画视频提供了重要支持。AnimeShooter的创建填补了现有公开数据集在动画领域的空白,特别是在角色一致性引导方面的不足。该数据集通过从YouTube收集大规模多样化动画内容,并利用Gemini-2.0-flash进行多镜头标注,为动画视频生成研究提供了丰富的资源。
当前挑战
AnimeShooter数据集面临的挑战主要包括两个方面:在领域问题方面,该数据集旨在解决多镜头动画视频生成中的角色一致性和叙事连贯性问题,这要求模型能够准确理解并保持角色特征在不同镜头中的一致性,同时确保故事情节的逻辑流畅。在构建过程中,研究人员需要处理大规模动画内容的筛选与分割,以及复杂的多级标注任务,包括故事脚本的层次化注释和角色参考图像的精确提取。此外,数据集的构建还需克服版权问题,确保所有内容均符合学术使用规范。
常用场景
经典使用场景
在动画制作与生成领域,AnimeShooter数据集为研究者提供了一个多镜头动画视频生成的基准平台。通过其层次化的故事脚本和角色参考图像,该数据集能够支持复杂的叙事结构和角色一致性保持,特别适用于基于参考图像引导的视频生成任务。经典使用场景包括利用多模态大语言模型(MLLMs)和视频扩散模型生成连贯的多镜头动画片段,为动画创作者和研究者提供了宝贵的实验数据。
解决学术问题
AnimeShooter数据集解决了动画生成领域中角色一致性和多镜头连贯性的关键学术问题。传统数据集往往缺乏角色参考图像和详细的镜头级标注,难以支持复杂的叙事生成任务。该数据集通过提供层次化的故事脚本和角色参考图像,为研究者开发更先进的视频生成模型奠定了基础,显著提升了生成动画的叙事连贯性和视觉一致性。
实际应用
AnimeShooter数据集在实际应用中为动画制作行业提供了强大的技术支持。通过其提供的参考图像和多镜头标注,动画制作团队可以快速生成符合叙事要求的连贯视频片段,大幅缩短制作周期并降低成本。此外,该数据集还可用于开发个性化的动画生成工具,满足不同用户对动画风格和叙事结构的需求。
数据集最近研究
最新研究方向
在人工智能生成内容(AIGC)领域,动画制作正经历前所未有的变革。AnimeShooter数据集的推出,为多镜头动画视频生成任务提供了全新的研究视角。该数据集通过引入角色参考图像和分层故事脚本标注,解决了现有数据集在角色一致性和叙事连贯性方面的不足。当前,基于该数据集的前沿研究主要集中在多模态大语言模型(MLLMs)与视频扩散模型的融合应用,旨在实现更具表现力和可控性的动画生成。这一研究方向不仅呼应了当下AIGC领域对高质量动画内容的需求,也为角色驱动的视频生成任务提供了新的基准。AnimeShooterGen模型的提出,进一步验证了参考图像在保持角色一致性方面的有效性,为动画制作自动化开辟了新的技术路径。
以上内容由遇见数据集搜集并总结生成



