Tom and Jerry Cartoons Dataset

Name: Tom and Jerry Cartoons Dataset
Creator: NVIDIA, Stanford University, UCSD, UC Berkeley, UT Austin
Published: 2025-04-08 01:56:31
License: 暂无描述

arXiv2025-04-08 更新2025-04-09 收录

下载链接：

https://test-time-training.github.io/video-dit

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于大约7小时的Tom and Jerry动画片制作而成，由NVIDIA等机构的研究人员创建。数据集强调复杂、多场景、长距离故事以及动态运动，旨在推动长上下文视频生成能力的研究。数据集以文本到视频配对的形式，包含多个场景，每个场景包含一个或多个3秒片段。这些片段被用作文本到视频配对的原子单元，以构建和优化模型。数据集适用于研究和开发能够讲述复杂故事的长期视频生成模型。

This dataset, created by researchers from institutions including NVIDIA, is constructed based on approximately 7 hours of Tom and Jerry animated episodes. It emphasizes complex, multi-scenario, long-range narrative and dynamic motion, aiming to advance research into long-context video generation capabilities. Formatted as text-video pairs, the dataset comprises multiple scenarios, each containing one or more 3-second clips. These clips serve as the atomic units of text-video pairs for model construction and optimization. This dataset is suitable for researching and developing long-form video generation models capable of narrating complex stories.

提供机构：

NVIDIA, Stanford University, UCSD, UC Berkeley, UT Austin

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

Tom and Jerry Cartoons Dataset的构建基于81集1940至1948年间发行的经典动画片段，经过视频超分辨率模型处理提升至720×480分辨率。研究团队采用多阶段标注流程：首先由人工标注师将每集分解为场景单元，随后提取3秒片段并进行精细化文本描述，最终形成包含7小时视频素材的数据集。该数据集特别设计了分段式训练结构，通过将连续3秒片段拼接为9秒、18秒、30秒及63秒的视频序列，并保留场景边界标记，以支持渐进式上下文扩展训练。

使用方法

使用该数据集时需遵循多阶段训练协议：首先在3秒片段上进行领域适应训练，随后逐步扩展至长视频上下文。研究者可通过三种层级文本提示（剧情概览、分段描述、详细分镜）生成视频，其中分镜脚本格式包含严格的场景边界标记。评估时建议采用四维度人工评价体系（文本跟随度、运动自然性、美学质量、时序一致性），重点关注模型在场景转换时的叙事连贯性。数据集配套提供的超分辨率视频与分层标注结构，支持从基础片段生成到复杂长视频合成的渐进式研究。

背景与挑战

背景概述

Tom and Jerry Cartoons Dataset是由NVIDIA、斯坦福大学等机构的研究团队于2025年创建的，旨在推动长视频生成领域的发展。该数据集以经典动画《猫和老鼠》为基础，包含约7小时的超分辨率处理后的视频片段，并配有详细的人工标注故事板。其核心研究问题聚焦于解决Transformer模型在生成长视频时面临的长上下文挑战，特别是如何保持多场景复杂故事的连贯性。该数据集的建立为视频生成领域提供了首个专注于分钟级叙事连贯性的基准测试平台，对推动Test-Time Training（TTT）等新型神经网络层在视频生成中的应用具有重要意义。

当前挑战

该数据集主要面临两大挑战：领域问题方面，需要解决长视频生成中的场景连贯性保持、动态运动建模以及跨场景叙事逻辑等难题，这些挑战在现有20秒以内的视频生成系统中尚未得到很好解决；构建过程方面，研究人员需处理原始动画的低分辨率问题，通过超分辨率技术提升画质，同时设计精细的多阶段标注流程来分解复杂剧情，并解决3秒片段拼接成长视频时的视觉连续性难题。此外，数据集的构建还需平衡叙事复杂性与视觉真实性之间的张力，这对标注规范和模型训练都提出了更高要求。

常用场景

经典使用场景

在计算机视觉与生成式人工智能领域，Tom and Jerry Cartoons Dataset作为首个以经典动画为蓝本的长视频生成基准，其核心价值在于验证Test-Time Training (TTT)层在跨场景时序建模中的有效性。该数据集通过精确标注的3秒片段级故事板，支持模型学习角色动态交互、场景切换逻辑以及多模态叙事连贯性，成为测试扩散Transformer生成1分钟复杂叙事的黄金标准。

解决学术问题

该数据集突破了传统视频生成模型在长上下文建模中的技术瓶颈，首次实现了对300k token级超长序列的端到端生成。通过引入神经网络的隐藏状态替代固定矩阵，TTT层解决了Mamba等线性注意力变体在跨场景记忆保留上的缺陷，在人类评估中较基线模型提升34 Elo分，为长视频生成的梯度优化、动态运动建模等核心问题提供了新的方法论框架。

实际应用

在影视预制作领域，该数据集支撑的TTT-MLP架构可快速生成符合导演意图的动画分镜，将传统数周的故事板制作压缩至小时级。教育场景中，基于角色互动的生成视频能动态演示物理规律，如Jerry偷奶酪时的抛物线运动。其720×480的增强分辨率更可直接用于怀旧动画的4K修复项目。

数据集最近研究