LongLive2.0-Toy-Dataset

Hugging Face2026-05-17 更新2026-05-18 收录

下载链接：

https://huggingface.co/datasets/Perflow-Shuai/LongLive2.0-Toy-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

LongLive2.0 Toy数据集是一个用于格式检查的小型数据集，旨在为用户在准备更大规模数据集前提供验证支持，主要验证AR（自回归）扩散训练、DMD（去噪扩散模型）蒸馏和提示词格式化的正确性。数据集包含两个独立的训练数据文件夹：`ar_training/`和`dmd_distillation/`。`ar_training/`文件夹包含配对的视频和字幕数据，用于AR扩散训练，要求视频文件（如MP4格式）与对应的字幕JSON文件（包含`caption`字段）在样本文件夹内严格匹配，并可选择性地包含`shot_durations.txt`文件以指定每个字幕的时间块分配。`dmd_distillation/`文件夹包含用于第二阶段DMD蒸馏的提示词数据，支持两种格式：纯文本提示词文件（`prompts.txt`，每行一个样本）和JSON提示词目录（`json_prompts/`，结构与AR训练的字幕JSON相同，但无需配对视频）。此外，数据集还提供`eval_prompts/`文件夹，用于评估和推理，支持文本文件或目录格式的提示词。该数据集适用于文本到视频生成任务，特别是长视频生成场景，可用于训练和验证AR扩散模型及DMD蒸馏流程。

The LongLive2.0 Toy dataset is a small dataset for format checking, designed to provide validation support for users preparing larger datasets, primarily verifying the correctness of AR (autoregressive) diffusion training, DMD (denoising diffusion model) distillation, and prompt formatting. The dataset includes two independent training data folders: `ar_training/` and `dmd_distillation/`. The `ar_training/` folder contains paired video and subtitle data for AR diffusion training, requiring video files (e.g., MP4 format) to strictly match corresponding subtitle JSON files (with a `caption` field) within sample folders, and optionally including `shot_durations.txt` files to specify time chunk allocations for each subtitle. The `dmd_distillation/` folder contains prompt data for the second-stage DMD distillation, supporting two formats: plain text prompt files (`prompts.txt`, one sample per line) and JSON prompt directories (`json_prompts/`, with the same structure as AR training subtitle JSON but without paired videos). Additionally, the dataset provides an `eval_prompts/` folder for evaluation and inference, supporting prompt formats as text files or directories. This dataset is suitable for text-to-video generation tasks, especially in long video generation scenarios, and can be used for training and validating AR diffusion models and DMD distillation processes.

创建时间：

2026-05-16

原始信息汇总

LongLive2.0 Toy Dataset 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本到视频生成（text-to-video）
标签: text-to-video, video-generation, long-video, longlive2

数据集用途

该数据集是LongLive2.0版本代码的小型格式检查数据集，主要用于帮助用户在准备更大规模数据集之前，验证AR扩散训练、DMD蒸馏以及提示格式化等功能。

数据集目录结构

longlive2_toy_dataset/ ar_training/ video/ caption/ dmd_distillation/ prompts.txt json_prompts/ sample_0001/ 0.json 1.json shot_durations.txt eval_prompts/

数据集包含两个独立的训练文件夹和一个评估文件夹：

1. AR训练数据（ar_training/）

用于AR扩散训练的配对视频/字幕数据，目录结构要求：

video/：存放视频文件，按样本文件夹组织（如 sample_0001/ 下的 0.mp4 等）
caption/：存放对应的字幕JSON文件，每个JSON文件包含"caption"字段
视频和字幕的文件夹名称必须匹配，文件基础名（如 0.mp4 和 0.json）也必须对应

可选文件 shot_durations.txt：为每个字幕分配时间块数量，格式为以空格分隔的数字，如 2 2 4

2. DMD蒸馏数据（dmd_distillation/）

支持两种格式：

选项A：JSON提示目录（json_prompts/）

多镜头提示格式，每个样本文件夹包含 per-shot JSON字幕文件
与AR训练的字幕JSON格式相同，但无需配对的 video/ 文件夹

选项B：纯文本提示文件（prompts.txt）

每非空行作为一个样本
示例格式：

A compact silver robot with one blue optic moves through a clean robotics lab. A first-person autonomous driving view explores a quiet campus road.

3. 评估提示数据（eval_prompts/）

支持文本文件或字幕目录两种方式：

文本文件格式与 DMD 的 prompts.txt 相同
目录支持直接字幕根目录布局和带外层 caption/ 文件夹的数据集根目录布局

JSON字幕格式

每个JSON文件包含一个 "caption" 字段，例如： json { "caption": "A compact silver robot with one blue optic explores a clean robotics lab." }

使用方式

AR扩散训练

bash torchrun --standalone --nnodes=1 --nproc_per_node=8 train.py --config_path configs/train_ar.yaml --logdir logs/train_ar_toy --wandb-save-dir wandb --disable-wandb

关键配置：

data.data_path：指向 ar_training/ 文件夹
data.image_or_video_shape：潜在张量形状 [B, F, C, H, W]
infra.sequence_parallel_size：SP组大小
infra.vae_halo_latents：chunk-halo VAE重叠
model_kwargs.num_frame_per_block：潜在帧中的时间块大小

DMD蒸馏

bash torchrun --standalone --nnodes=1 --nproc_per_node=8 train.py --config_path configs/train_dmd.yaml --logdir logs/train_dmd_toy --wandb-save-dir wandb --disable-wandb

关键配置：

data.data_path：指向 dmd_distillation/prompts.txt 或 dmd_distillation/json_prompts
algorithm.backward_simulation：默认为true，用于纯提示DMD rollout
training.num_training_frames：rollout窗口长度（潜在帧）
training.slice_last_frames：用于DMD/批评损失的尾部帧
checkpoints.generator_ckpt：可选的AR生成器初始化
adapter：启用LoRA蒸馏

引用信息

论文引用将在论文发布后更新（预计2026年）。

搜集汇总

数据集介绍

构建方式

LongLive2.0-Toy-Dataset 是专为验证长视频生成管线而设计的微型数据集，旨在协助用户在筹备大规模数据集之前，确认自回归扩散训练、DMD蒸馏以及提示词格式化等关键环节的正确性。数据集的构建遵循了 LongLive2.0 框架的规范化目录结构，划分为 `ar_training/` 与 `dmd_distillation/` 两大训练子集。前者采用视频与字幕配对的格式，每个样本包含 `video/` 和 `caption/` 两个同名子文件夹，其中视频片段和对应的 JSON 字幕文件以相同文件名前缀对应，并可选的 `shot_durations.txt` 文件用于指定每个字幕所分配的时间块数量。后者为仅含提示词的数据，支持两种格式：一种为多镜头 JSON 提示词目录，其内部结构与 AR 训练集中的字幕文件夹一致；另一种为纯文本提示词文件，每行视为一个独立样本。此外，数据集还提供 `eval_prompts/` 评估文件夹，兼容文本文件或包含多镜头 JSON 字幕的目录两种布局，确保推理阶段的灵活性与一致性。

特点

该数据集最显著的特点在于其轻量级与针对性的验证功能，专门用于检查训练和蒸馏流程中数据路径配置、格式兼容性及多镜头时间分配逻辑的正确性。数据集结构清晰，支持 AR 扩散训练所需的视频-字幕配对数据，以及 DMD 蒸馏阶段所需的仅提示词数据，并兼容两种提示词输入方式：多镜头结构化 JSON 目录与简洁的纯文本文件，极大提升了使用的灵活性。AR 训练部分通过 `MultiVideoConcatDataset` 构造器自动构建数据集，要求 `video/` 与 `caption/` 文件夹名称一一对应，且视频与字幕文件共享相同的文件主名，确保数据配对的精确性。DMD 蒸馏部分则使用 `MultiTextConcatDataset`，在 `backward_simulation` 为 `true` 的默认模式下，无需读取视频文件，仅依据提示词生成用于 DMD 损失计算的 rollout 序列。此外，可选的 `shot_durations.txt` 文件允许用户自定义每个字幕的时间块数量，若缺失则回退至配置文件中的默认分块策略或均匀分配，赋予用户精细控制数据分布的能力。

使用方法

使用该数据集时，用户应首先将代码仓库指向正确的数据路径。对于 AR 扩散训练，需在 `configs/train_ar.yaml` 配置文件中将 `data_path` 设置为 `ar_training/` 文件夹的路径，并使用 `train.py` 脚本启动训练，例如运行 `torchrun` 命令并指定 `--config_path configs/train_ar.yaml`。训练过程中需关注 `data.image_or_video_shape`、`infra.sequence_parallel_size` 及 `model_kwargs.num_frame_per_block` 等关键配置项，以匹配潜在张量的尺寸和序列并行策略。对于 DMD 蒸馏，则需在 `configs/train_dmd.yaml` 中将 `data_path` 指向 `dmd_distillation/prompts.txt` 或 `dmd_distillation/json_prompts` 目录，且 `algorithm.backward_simulation` 默认开启即以提示词驱动 rollout 生成。蒸馏脚本同样通过 `train.py` 调用，并可通过 `checkpoints.generator_ckpt` 指定预训练 AR 生成器参数，以及利用 `adapter` 配置项启用 LoRA 蒸馏。评估阶段，用户可将 `eval_data_path` 指向包含多镜头 JSON 字幕的目录或一个纯文本提示词文件，两种格式均得到原生支持，便于快速验证生成效果。

背景与挑战

背景概述

LongLive2.0-Toy-Dataset 是由研究团队为验证其长视频生成框架 LongLive2.0 而创建的小规模格式校验数据集，发布于2026年前后。该数据集聚焦于文本到视频（text-to-video）生成领域中的长视频生成任务，核心研究问题在于如何通过自回归扩散训练（AR Diffusion Training）和分布匹配蒸馏（DMD Distillation）两阶段流程，高效、稳定地生成长时间、高一致性的视频序列。作为配套工具，该数据集的设计旨在帮助研究人员在准备大规模训练数据前，快速验证代码管线的正确性，其简洁的目录结构和多种提示格式支持，为长视频生成领域的模型训练与评估提供了标准化的示例基准。

当前挑战

该数据集所解决的领域问题挑战在于：长视频生成中，模型需同时维持时间连贯性、场景逻辑性和视觉质量，而现有方法常因时序过长导致内容漂移或计算资源爆炸。具体而言，自回归扩散训练面临视频帧间依赖建模的复杂性，DMD蒸馏则需在无视频参考下仅凭文本提示生成连贯长序列，这对提示设计与分布匹配策略提出极高要求。数据集构建过程中，挑战体现在：其一，需设计统一的配对视频/描述结构以兼容两种训练范式；其二，需平衡多镜头提示的离散性（如shot_durations.txt）与模型对连续帧的隐式学习能力；其三，需为小规模玩具数据集提供可扩展的格式模板，使其既能用于快速调试，又能无缝迁移至大规模数据，这对文件组织与参数配置的灵活性构成了严格约束。

常用场景

经典使用场景

LongLive2.0-Toy-Dataset作为长视频生成领域的轻量级验证基准，其经典使用场景聚焦于自回归扩散训练（AR diffusion training）与DMD蒸馏（DMD distillation）两大核心流程的格式校验。研究者可利用该数据集验证多视频拼接数据集（MultiVideoConcatDataset）中视频与字幕的配对结构、镜头时长分配逻辑，以及文本提示在多镜头组织下的编排范式。在AR训练阶段，数据集要求视频与字幕文件严格按样本文件夹对齐，并通过shot_durations.txt控制每个字幕对应的时间块数量。在DMD蒸馏阶段，数据集同时支持纯文本提示文件和JSON格式的多镜头字幕目录，为生成结果的后向模拟提供灵活的输入接口。该数据集作为正式大规模数据集的前置检查工具，能够有效降低长视频生成模型开发过程中的调试成本。

衍生相关工作

该数据集衍生了一系列与长视频生成流程优化密切相关的经典工作。在训练数据管理方面，MultiVideoConcatDataset的设计理念启发了后续关于大规模视频数据集的动态加载与内存优化研究，推动了多分辨率视频切片的标准化实践。DMD蒸馏过程中的MultiTextConcatDataset为无视频条件下的文本到视频生成开辟了新路径，催生了基于扩散模型与对抗训练的混合蒸馏方法探索。数据集中AR训练与DMD蒸馏的级联设计框架，被后续工作借鉴作为长视频生成的两阶段训练范式，即先通过自回归扩散学习视频帧间依赖，再通过分布匹配蒸馏压缩采样步骤。此外，shot_durations.txt这一镜头时长分配机制直接影响了关于生成视频中镜头切换节奏控制的量化研究，成为评估长视频生成模型时序建模能力的重要参考指标。

数据集最近研究