VincentNi/wan22-rollout-blocks-ranking-rgb-step0

Name: VincentNi/wan22-rollout-blocks-ranking-rgb-step0
Creator: VincentNi
Published: 2026-05-01 04:25:55
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/VincentNi/wan22-rollout-blocks-ranking-rgb-step0

下载链接

链接失效反馈

官方服务：

资源简介：

Wan2.2 TI2V Step-0 Rollout — RoboTwin `blocks_ranking_rgb`数据集包含160个视频rollouts（10个场景×16个样本），由Wan2.2-TI2V-5B模型和合并的Vidar LoRA生成，用于RoboTwin的blocks_ranking_rgb任务（将R/G/B块从左到右排列）。这些是用于评估奖励模型行为和种子RL微调的预NFT训练（step-0）基线样本。数据集还包括生成配置的详细信息，如基础模型、LoRA、采样器、步骤、位移、CFG比例、帧数和种子等。

The Wan2.2 TI2V Step-0 Rollout — RoboTwin `blocks_ranking_rgb` dataset contains 160 video rollouts (10 scenes × 16 samples) generated by the Wan2.2-TI2V-5B model and merged Vidar LoRA for the RoboTwin `blocks_ranking_rgb` task (arrange R/G/B blocks left-to-right). These are the pre-NFT-training (step-0) baseline samples used to evaluate reward-model behaviour and seed RL fine-tuning. The dataset also includes detailed generation configurations such as base model, LoRA, sampler, steps, shift, CFG scale, frames, and seeds.

提供机构：

VincentNi

搜集汇总

数据集介绍

构建方式

该数据集基于Wan2.2-TI2V-5B基础模型，融合Vidar LoRA权重进行视频生成，采用确定性ODE欧拉流匹配采样器，设置eta=0、50步采样步数、5.0的移位因子与无分类器引导尺度，以640×736分辨率生成包含121帧的视频序列。针对RoboTwin环境中blocks_ranking_rgb任务——即按从左至右顺序排列红、绿、蓝三色积木——的10个场景，每个场景使用16个随机种子（42至57）独立采样，共计160条视频片段。采样器与fastvideo框架中的ode_rollout_batch函数保持字节级对齐，确保每个视频与其在NFT训练器中间步骤0的输出完全一致。

特点

该数据集作为预NFT训练阶段（第0步）的基准样本，核心价值在于评估奖励模型的行为表现并作为强化学习微调的初始种子。数据涵盖10个不同场景的多样性，每个场景包含16条由不同随机种子生成的视频，总规模约415 MB，以MP4格式存储。生成过程严格控制了采样参数与并行前向传播的一致性，使得每条视频均能精确复现特定场景与采样索引组合下的基准输出，为后续奖励模型训练与策略优化提供了可靠且可追溯的参考基线。

使用方法

使用该数据集时，可直接从HuggingFace页面下载robotwin_blocks_ranking_rgb_<scene_id>目录下的MP4文件，每个场景文件夹包含16条以g000_s42至g015_s57命名的视频。用户可通过运行EmbodiedVideoRL仓库中的scripts/inference/rollout_first_round_blocks_ranking_rgb.sh脚本，配合默认生成配置复现该数据集。这些视频适用于奖励模型的基准测试、对比分析以及作为强化学习微调流程中NFT训练器的初始输入，帮助研究者在机器人视频生成任务中评估模型在未见场景下的泛化能力。

背景与挑战

背景概述

该数据集由视频生成与机器人学习领域的研究团队构建，于2025年发布，旨在为机器人操作任务中的视频生成模型提供基准评估。核心研究问题聚焦于如何通过预训练的视频生成模型（Wan2.2-TI2V-5B）结合LoRA微调，生成高质量的机器人任务 rollout 视频，以用于后续的强化学习训练。该数据集包含160个视频样本（10个场景×16个样本），覆盖机器人控制任务“blocks_ranking_rgb”中按红绿蓝顺序排列积木的操作序列。作为训练前的步骤-0基线，它对奖励模型的行为评估和强化学习种子初始化具有关键参考价值，在机器人视频生成和任务学习领域具有示范意义。

当前挑战

该数据集面临的核心挑战包括：领域问题层面，机器人操作任务中视频生成的精确性要求极高，需确保生成视频的动作序列与真实物理规律一致，且能稳定反映任务结构（如积木排列顺序）。构建过程中，研究人员需解决条件视频生成模型（Wan2.2-TI2V-5B）与领域特定LoRA的融合问题，保证生成样本在任务规范下有效；此外，确定性采样策略（ODE Euler流匹配）的配置与帧数、分辨率等参数的选择直接影响生成视频的质量与一致性，涉及对多种超参数（如CFG尺度、步数）的精细调校，以确保每个视频可复现并服务于后续NFT训练的比对需求。

常用场景

经典使用场景

该数据集是Wan2.2-TI2V-5B模型在RoboTwin“blocks_ranking_rgb”任务上的预强化学习训练阶段的初始样本发布，包含来自10个场景的共160段机器人操作视频。其核心使用场景是作为视频生成模型的零步（step-0）基线评估集，用以衡量奖励模型在机器人任务中的行为表现，并为后续基于强化学习的模型微调提供初始种子样本。研究者可通过对比该数据集与后续训练轮次生成的视频，量化视频生成策略的改进幅度，从而验证模型在视觉一致性与任务完成度上的性能提升。

实际应用

在实际应用中，该数据集可被直接用于机器人强化学习训练管道的初始化环节，例如作为奖励模型回归测试的静态样本集，或作为对比学习中的负样本候选。由于视频内容涵盖多场景、多随机种子下的红绿蓝方块排列操作，它也可模拟仿真环境中策略回滚的典型故障案例，帮助训练更鲁棒的视觉语言价值函数。此外，该数据集为工业场景下部署类似Wan2.2的视频生成体素模型提供了性能基准，开发者可通过其在同类任务上的生成质量，评估视频生成模型对机器人物理交互规律的建模能力。

衍生相关工作

该数据集的诞生衍生了一系列围绕强化学习与视频生成结合的重要工作。例如，基于其提供的step-0基线，研究者可开发针对机器人视频质量评估的奖励信号修正方法，或设计更高效的KL散度约束策略以稳定微调过程。其生成配置（确定性ODE、CFG缩放策略）直接启发了后续对扩散模型采样轨迹一致性的理论分析。此外，RoboTwin任务的场景结构与采样种子设计，为多视角、多初始条件下的机器人规划推理研究提供了标准化评测框架，推动了视频生成模型从美学质量向任务导向的实用转型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集