LongLive2.0-Toy-Dataset
收藏LongLive2.0 Toy Dataset 数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本到视频生成(text-to-video)
- 标签: text-to-video, video-generation, long-video, longlive2
数据集用途
该数据集是LongLive2.0版本代码的小型格式检查数据集,主要用于帮助用户在准备更大规模数据集之前,验证AR扩散训练、DMD蒸馏以及提示格式化等功能。
数据集目录结构
longlive2_toy_dataset/ ar_training/ video/ caption/ dmd_distillation/ prompts.txt json_prompts/ sample_0001/ 0.json 1.json shot_durations.txt eval_prompts/
数据集包含两个独立的训练文件夹和一个评估文件夹:
1. AR训练数据(ar_training/)
用于AR扩散训练的配对视频/字幕数据,目录结构要求:
video/:存放视频文件,按样本文件夹组织(如 sample_0001/ 下的 0.mp4 等)caption/:存放对应的字幕JSON文件,每个JSON文件包含"caption"字段- 视频和字幕的文件夹名称必须匹配,文件基础名(如 0.mp4 和 0.json)也必须对应
可选文件 shot_durations.txt:为每个字幕分配时间块数量,格式为以空格分隔的数字,如 2 2 4
2. DMD蒸馏数据(dmd_distillation/)
支持两种格式:
选项A:JSON提示目录(json_prompts/)
- 多镜头提示格式,每个样本文件夹包含 per-shot JSON字幕文件
- 与AR训练的字幕JSON格式相同,但无需配对的 video/ 文件夹
选项B:纯文本提示文件(prompts.txt)
-
每非空行作为一个样本
-
示例格式:
A compact silver robot with one blue optic moves through a clean robotics lab. A first-person autonomous driving view explores a quiet campus road.
3. 评估提示数据(eval_prompts/)
支持文本文件或字幕目录两种方式:
- 文本文件格式与 DMD 的 prompts.txt 相同
- 目录支持直接字幕根目录布局和带外层 caption/ 文件夹的数据集根目录布局
JSON字幕格式
每个JSON文件包含一个 "caption" 字段,例如: json { "caption": "A compact silver robot with one blue optic explores a clean robotics lab." }
使用方式
AR扩散训练
bash torchrun --standalone --nnodes=1 --nproc_per_node=8 train.py --config_path configs/train_ar.yaml --logdir logs/train_ar_toy --wandb-save-dir wandb --disable-wandb
关键配置:
data.data_path:指向ar_training/文件夹data.image_or_video_shape:潜在张量形状[B, F, C, H, W]infra.sequence_parallel_size:SP组大小infra.vae_halo_latents:chunk-halo VAE重叠model_kwargs.num_frame_per_block:潜在帧中的时间块大小
DMD蒸馏
bash torchrun --standalone --nnodes=1 --nproc_per_node=8 train.py --config_path configs/train_dmd.yaml --logdir logs/train_dmd_toy --wandb-save-dir wandb --disable-wandb
关键配置:
data.data_path:指向dmd_distillation/prompts.txt或dmd_distillation/json_promptsalgorithm.backward_simulation:默认为true,用于纯提示DMD rollouttraining.num_training_frames:rollout窗口长度(潜在帧)training.slice_last_frames:用于DMD/批评损失的尾部帧checkpoints.generator_ckpt:可选的AR生成器初始化adapter:启用LoRA蒸馏
引用信息
论文引用将在论文发布后更新(预计2026年)。




