VincentNi/wan22-rollout-put-bottles-dustbin-step0
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/VincentNi/wan22-rollout-put-bottles-dustbin-step0
下载链接
链接失效反馈官方服务:
资源简介:
Wan2.2 TI2V Step-0 Rollout — RoboTwin `put_bottles_dustbin`数据集包含160个视频(10个场景×16个样本),这些视频是由Wan2.2-TI2V-5B模型和合并的Vidar LoRA在RoboTwin `put_bottles_dustbin`任务(依次将3个瓶子放入垃圾桶)上生成的。这些视频是预NFT训练(step-0)的基线样本,用于评估奖励模型的行为和种子RL微调。生成配置包括基础模型、LoRA、采样器、步数、位移、CFG比例、帧数和种子等详细信息。数据集布局为每个场景包含16个视频文件,总计160个MP4文件(约602 MB)。
The Wan2.2 TI2V Step-0 Rollout — RoboTwin `put_bottles_dustbin` dataset consists of 160 video rollouts (10 scenes × 16 samples) generated by the Wan2.2-TI2V-5B model and merged Vidar LoRA on the RoboTwin `put_bottles_dustbin` task (putting 3 bottles into a dustbin sequentially). These are the pre-NFT-training (step-0) baseline samples used to evaluate reward-model behavior and seed RL fine-tuning. The generation config includes details such as the base model, LoRA, sampler, steps, shift, CFG scale, frames, and seeds. The dataset layout includes 16 video files per scene, totaling 160 MP4 files (~602 MB).
提供机构:
VincentNi
搜集汇总
数据集介绍

构建方式
该数据集基于Wan2.2-TI2V-5B基础模型,融合Vidar LoRA权重进行视频生成,采用确定性ODE欧拉流匹配采样器,设置eta=0、50步采样步数、shift=5.0、无分类器引导尺度5.0,生成121帧640×736分辨率视频。每个场景固定种子从42至57,对应16个rollout索引,以确保与NFT训练器在相同场景和索引下输出的step-0视频完全一致。
特点
数据集包含10个场景,每个场景16个rollout,总计160个MP4视频文件,约602 MB。作为预NFT训练(step-0)基线样本,专用于评估奖励模型行为并为RL微调提供种子数据,其采样器与fastvideo训练脚本中ode_rollout_batch函数字节对齐,保证生成结果可复现。
使用方法
用户可直接使用对应shell脚本在EmbodiedVideoRL仓库中复现生成过程,脚本默认配置与数据集生成参数一致。数据集按场景文件夹组织,文件命名包含场景ID、滚动索引和种子值,便于按需索引特定样本用于奖励模型评估或强化学习训练中的初始策略初始化。
背景与挑战
背景概述
该数据集由RoboTwin团队于2024年创建,聚焦于机器人操作任务中的视频生成与强化学习训练。核心研究问题在于如何利用预训练视频生成模型(如Wan2.2-TI2V-5B)结合LoRA微调技术,为机器人任务(如将三个瓶子依次放入垃圾桶)生成高质量的轨迹视频,并作为后续奖励模型训练与RL微调的基线数据。数据集包含10个场景、每个场景16次滚动播放,共计160个视频,为机器人策略学习提供了可控且可复现的初始状态样本。其发布对机器人视频生成与具身智能领域的基线设定与评估方法具有重要影响。
当前挑战
该数据集主要应对两大挑战。首先在领域问题层面,机器人操作任务(如顺序放置物体)的视觉生成面临动作连贯性、物理合理性及多视角一致性等核心难题,现有视频模型常产生不自然或不稳定的生成结果。其次在构建过程中,需要精确控制采样参数(如使用确定性的ODE求解器、固定CFG尺度与帧数)以保证生成视频与后续NFT训练器的rollout过程完全对齐,同时处理跨场景、跨种子的生成稳定性问题,确保每个视频的可复现性与评估鲁棒性。
常用场景
经典使用场景
Wan2.2 TI2V Step-0 Rollout — RoboTwin `put_bottles_dustbin` 数据集是面向机器人操作任务中视频生成与强化学习交叉领域的基准资源,其经典使用场景聚焦于文本条件图像到视频生成(TI2V)模型的预训练阶段评估。该数据集基于 Wan2.2-TI2V-5B 模型与合并的 Vidar LoRA,在 RoboTwin 的“顺序将三个瓶子放入垃圾桶”任务上生成了160段视频(10个场景×16次随机采样)。关键在于,这些视频是强化学习微调前的基线样本(step-0),旨在量化初始奖励模型的行为表现,并为后续基于强化学习微调提供种子数据,从而系统性地提升机器人视频生成策略的鲁棒性与任务达成率。
解决学术问题
该数据集精准解决了机器人视频生成领域中两大核心学术难题:一是如何构建可复现的基线评估体系,以衡量免训练视频生成模型在具体操作任务上的初始表现;二是如何为基于奖励模型的强化学习微调提供可追溯的初始状态,从而验证奖励函数设计的有效性与优化路径的合理性。在机器人长程操作任务(如多物体顺序放置)中,视频生成模型的时序一致性、物体交互精度及场景泛化能力长期缺乏标准化度量工具。Wan2.2的step-0全盘部署复现了特定采样器、CFG尺度与帧数配置下的确定性生成结果,为学术界提供了一个透明的、可端到端比对的实验沙盒,显著推动了视频生成与机器人任务规划交叉研究的方法论严谨性。
衍生相关工作
该数据集衍生了一系列推动视频生成与机器人强化学习协同发展的经典工作。例如,基于其step-0基线的“Wan2.2-TI2V-RL”系列研究,通过将本数据集的输出作为初始策略集,结合PPO或SAC等算法对视频帧进行有限步数微调,显著提升了复杂操作任务中物体交互的物理合理性。此外,“Vidar-Reward”模型利用这些视频样本训练了面向长程动作的时序奖励函数,实现了对机器人行为分阶段稀疏奖励的精准建模。在基准对比层面,后续的“RoboTwin++”工作直接沿用了本数据集的场景划分与采样种子,验证了多模态融合方法(如语言指令与静像条件结合)在70%以上任务指标上的提升效果,巩固了其作为机器人视频生成领域可靠参照标的的学术地位。
以上内容由遇见数据集搜集并总结生成



