VincentNi/wan22-rollout-put-object-cabinet-step0

Name: VincentNi/wan22-rollout-put-object-cabinet-step0
Creator: VincentNi
Published: 2026-05-01 02:09:24
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/VincentNi/wan22-rollout-put-object-cabinet-step0

下载链接

链接失效反馈

官方服务：

资源简介：

Wan2.2 TI2V Step-0 Rollout — RoboTwin `put_object_cabinet`数据集包含160个视频（10个场景×16个样本），由Wan2.2-TI2V-5B模型和合并的Vidar LoRA生成，用于RoboTwin `put_object_cabinet`任务。这些是用于评估奖励模型行为和种子RL微调的预NFT训练（step-0）基线样本。数据集的具体配置包括基础模型、LoRA、采样器、步骤、位移、CFG比例、帧数和种子等详细信息。数据集的布局和文件命名规则也在README中进行了说明。

The Wan2.2 TI2V Step-0 Rollout — RoboTwin `put_object_cabinet` dataset contains 160 videos (10 scenes × 16 samples) generated by the Wan2.2-TI2V-5B model and merged Vidar LoRA for the RoboTwin `put_object_cabinet` task. These are the pre-NFT-training (step-0) baseline samples used to evaluate reward-model behaviour and seed RL fine-tuning. The dataset includes detailed generation configurations such as base model, LoRA, sampler, steps, shift, CFG scale, frames, and seeds. The layout and file naming conventions are also described in the README.

提供机构：

VincentNi

搜集汇总

数据集介绍

构建方式

本数据集基于Wan2.2-TI2V-5B基础模型，融合Vidar LoRA权重，以确定性ODE欧拉流匹配采样器进行视频生成。设置采样步数为50，位移参数为5.0，无分类器引导尺度为5.0，生成121帧分辨率640×736的视频。每场景对应16条随机种子（42至57），共计10个场景，生成160条卷帘视频，每条视频均复现了NFT训练器中step-0阶段的输出结果。

特点

该数据集作为强化学习微调前的基线样本，专用于奖励模型行为评估与种子强化学习初始化。视频生成过程与训练器中的rollout采样逻辑严格对齐，包括相同的流匹配步进函数、批量无分类器引导前向及首帧掩码重施加，确保了数据的一致性与可复现性。数据组织按场景及索引分层存放，便于后续分场景分析。

使用方法

可直接将该数据集作为奖励模型评估的输入视频序列，或作为强化学习微调前的初始rollout样本。每段视频对应特定场景与随机种子，用户可根据场景标识与种子索引进行细粒度分析。若需复现生成过程，可运行EmbodiedVideoRL仓库中的rollout脚本，并配置上述默认参数即可获得一致结果。

背景与挑战

背景概述

该数据集由Wan2.2团队与RoboTwin项目合作创建，发布于2024年，旨在为机器人视频生成与强化学习提供基准评估样本。核心研究问题围绕如何利用文本到视频生成模型（TI2V）与LoRA微调技术，在机器人操作任务（如放置物体到柜子中）中生成高质量视频轨迹，并作为奖励模型行为评估与强化学习初始化的基础。该数据集提供了160个视频片段，覆盖10个场景，每个场景16个样本，展示了生成模型在机器人任务中的初步应用能力，对机器人仿真、视频生成与强化学习的交叉领域具有重要影响力。

当前挑战

该数据集面临的挑战包括：1) 机器人视频生成领域问题，即如何确保生成视频在物理一致性、任务完成度与动作序列合理性上接近真实演示，当前模型在复杂场景中仍可能出现动作不连贯或物体交互失败；2) 构建过程中，需解决生成模型与强化学习框架的紧密耦合问题，确保视频样本与NFT训练器的ODE rollout过程字节对齐，同时维持不同种子与场景下的多样性，避免模式崩溃；此外，有限样本规模（160个视频）限制了模型泛化能力的评估与大规模强化学习应用的可靠性。

常用场景

经典使用场景

在机器人学习与视频生成交叉领域，该数据集作为Wan2.2-TI2V-5B模型结合Vidar LoRA的初始采样结果，为‘将物体放入柜子’这一精细化操控任务提供了160个多视角视频序列。其经典应用在于作为强化学习策略优化的基准基线，通过预定义10个场景各16个随机种子的确定性ODE流匹配采样，确保每个视频可被精确复现，从而为奖励模型行为评估和后续微调提供可靠的对照样本。

解决学术问题

该数据集核心解决了视频生成模型在机器人任务中缺乏可度量、可复现的初始策略评估标准的问题。通过统一采样参数（50步ODE、CFG尺度5.0、帧数121），它使研究者能够量化基线与微调模型间的差异，避免因随机性导致的性能波动。这一标准化基线推动了从视觉奖励学习到策略蒸馏的因果分析，为理解生成模型在操控任务中的行为边界提供了实证基础。

衍生相关工作

该数据集衍生了一系列围绕视频生成与机器人控制融合的研究工作。最直接的是基于NFT（Neural Field Transfer）的训练范式，利用其作为种子样本引导策略优化；此外，Vidar LoRA的合并策略启发了轻量级模型适配器在操作任务中的泛化性研究。后续工作还拓展了多条件控制生成、跨场景奖励泛化等方向，形成了从视频基线到闭环策略的完整技术链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集