five

Tom and Jerry Cartoons Dataset

收藏
arXiv2025-04-08 更新2025-04-09 收录
下载链接:
https://test-time-training.github.io/video-dit
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是基于大约7小时的Tom and Jerry动画片制作而成,由NVIDIA等机构的研究人员创建。数据集强调复杂、多场景、长距离故事以及动态运动,旨在推动长上下文视频生成能力的研究。数据集以文本到视频配对的形式,包含多个场景,每个场景包含一个或多个3秒片段。这些片段被用作文本到视频配对的原子单元,以构建和优化模型。数据集适用于研究和开发能够讲述复杂故事的长期视频生成模型。

This dataset, created by researchers from institutions including NVIDIA, is constructed based on approximately 7 hours of Tom and Jerry animated episodes. It emphasizes complex, multi-scenario, long-range narrative and dynamic motion, aiming to advance research into long-context video generation capabilities. Formatted as text-video pairs, the dataset comprises multiple scenarios, each containing one or more 3-second clips. These clips serve as the atomic units of text-video pairs for model construction and optimization. This dataset is suitable for researching and developing long-form video generation models capable of narrating complex stories.
提供机构:
NVIDIA, Stanford University, UCSD, UC Berkeley, UT Austin
创建时间:
2025-04-08
搜集汇总
数据集介绍
main_image_url
构建方式
Tom and Jerry Cartoons Dataset的构建基于81集1940至1948年间发行的经典动画片段,经过视频超分辨率模型处理提升至720×480分辨率。研究团队采用多阶段标注流程:首先由人工标注师将每集分解为场景单元,随后提取3秒片段并进行精细化文本描述,最终形成包含7小时视频素材的数据集。该数据集特别设计了分段式训练结构,通过将连续3秒片段拼接为9秒、18秒、30秒及63秒的视频序列,并保留场景边界标记,以支持渐进式上下文扩展训练。
使用方法
使用该数据集时需遵循多阶段训练协议:首先在3秒片段上进行领域适应训练,随后逐步扩展至长视频上下文。研究者可通过三种层级文本提示(剧情概览、分段描述、详细分镜)生成视频,其中分镜脚本格式包含严格的场景边界标记。评估时建议采用四维度人工评价体系(文本跟随度、运动自然性、美学质量、时序一致性),重点关注模型在场景转换时的叙事连贯性。数据集配套提供的超分辨率视频与分层标注结构,支持从基础片段生成到复杂长视频合成的渐进式研究。
背景与挑战
背景概述
Tom and Jerry Cartoons Dataset是由NVIDIA、斯坦福大学等机构的研究团队于2025年创建的,旨在推动长视频生成领域的发展。该数据集以经典动画《猫和老鼠》为基础,包含约7小时的超分辨率处理后的视频片段,并配有详细的人工标注故事板。其核心研究问题聚焦于解决Transformer模型在生成长视频时面临的长上下文挑战,特别是如何保持多场景复杂故事的连贯性。该数据集的建立为视频生成领域提供了首个专注于分钟级叙事连贯性的基准测试平台,对推动Test-Time Training(TTT)等新型神经网络层在视频生成中的应用具有重要意义。
当前挑战
该数据集主要面临两大挑战:领域问题方面,需要解决长视频生成中的场景连贯性保持、动态运动建模以及跨场景叙事逻辑等难题,这些挑战在现有20秒以内的视频生成系统中尚未得到很好解决;构建过程方面,研究人员需处理原始动画的低分辨率问题,通过超分辨率技术提升画质,同时设计精细的多阶段标注流程来分解复杂剧情,并解决3秒片段拼接成长视频时的视觉连续性难题。此外,数据集的构建还需平衡叙事复杂性与视觉真实性之间的张力,这对标注规范和模型训练都提出了更高要求。
常用场景
经典使用场景
在计算机视觉与生成式人工智能领域,Tom and Jerry Cartoons Dataset作为首个以经典动画为蓝本的长视频生成基准,其核心价值在于验证Test-Time Training (TTT)层在跨场景时序建模中的有效性。该数据集通过精确标注的3秒片段级故事板,支持模型学习角色动态交互、场景切换逻辑以及多模态叙事连贯性,成为测试扩散Transformer生成1分钟复杂叙事的黄金标准。
解决学术问题
该数据集突破了传统视频生成模型在长上下文建模中的技术瓶颈,首次实现了对300k token级超长序列的端到端生成。通过引入神经网络的隐藏状态替代固定矩阵,TTT层解决了Mamba等线性注意力变体在跨场景记忆保留上的缺陷,在人类评估中较基线模型提升34 Elo分,为长视频生成的梯度优化、动态运动建模等核心问题提供了新的方法论框架。
实际应用
在影视预制作领域,该数据集支撑的TTT-MLP架构可快速生成符合导演意图的动画分镜,将传统数周的故事板制作压缩至小时级。教育场景中,基于角色互动的生成视频能动态演示物理规律,如Jerry偷奶酪时的抛物线运动。其720×480的增强分辨率更可直接用于怀旧动画的4K修复项目。
数据集最近研究
最新研究方向
近年来,Tom and Jerry Cartoons Dataset在视频生成领域引起了广泛关注,特别是在长视频生成和复杂故事情节建模方面。该数据集被用于验证Test-Time Training (TTT)层的有效性,这些层通过将隐藏状态设计为神经网络,显著提升了视频生成的连贯性和动态表现。前沿研究聚焦于如何利用TTT层克服传统Transformer在长上下文建模中的效率瓶颈,同时保持多场景故事的逻辑一致性。这一技术突破不仅推动了卡通风格视频生成的发展,还为通用视频生成模型的长上下文处理提供了新思路。热点应用包括动态分镜转换、角色动作自然性优化以及跨场景的时序一致性保持,相关成果已成功应用于CVPR 2025的最新研究中。该数据集的独特价值在于其精心标注的多场景故事板,为测试视频生成模型在复杂叙事能力方面设立了新基准。
相关研究论文
  • 1
    One-Minute Video Generation with Test-Time TrainingNVIDIA, Stanford University, UCSD, UC Berkeley, UT Austin · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作