RBM-1M

Name: RBM-1M
Creator: 南加州大学; 德克萨斯大学达拉斯分校; 麻省理工学院; 华盛顿大学; NVIDIA
Published: 2026-03-03 01:38:58
License: 暂无描述

arXiv2026-03-03 更新2026-03-04 收录

下载链接：

https://robometer.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

RBM-1M是由南加州大学等机构联合构建的大规模机器人学习数据集，包含来自21种机器人平台的100万条轨迹数据。该数据集不仅包含专家演示的奖励标记轨迹，还特别纳入了大量未标记的失败轨迹，通过视频观察和语言指令的多元组合，覆盖双臂、单臂和移动机械臂等多种机器人形态。数据来源包括真实机器人操作、人类演示视频、仿真数据以及自动化策略 rollout 生成的失败案例。数据集通过轨迹对比的监督学习框架，旨在解决机器人强化学习中奖励函数泛化性不足的问题，可广泛应用于离线/在线强化学习、模仿学习数据过滤及自动故障检测等领域。

提供机构：

南加州大学; 德克萨斯大学达拉斯分校; 麻省理工学院; 华盛顿大学; NVIDIA

创建时间：

2026-03-03

搜集汇总

数据集介绍

构建方式

在通用机器人奖励建模领域，大规模且多样化的数据集对于训练泛化性强的模型至关重要。RBM-1M数据集正是为应对这一挑战而构建，其核心在于精心整合了来自超过21种不同机器人平台（包括双臂、单臂及移动机械臂）以及人类演示的超过一百万条轨迹。构建过程并非单纯追求数据量，而是强调视角、场景和机器人本体的多样性。数据集聚合了来自多个高质量来源的数据：专家机器人演示（如Open-X、AGIBotWorld）、人类视频（如Epic-Kitchens）、仿真数据（如LIBERO），以及从自动化策略执行和故障检测数据集中收集的大量次优和失败轨迹。尤为关键的是，构建策略有意纳入了大量未标注奖励的失败轨迹，这些在现实世界数据收集中自然产生但难以用传统绝对进度监督方法有效利用的数据，通过轨迹对比的偏好监督得以激活其价值。

特点

RBM-1M数据集最显著的特点在于其规模、多样性与对失败数据的系统性包容。其包含超过一百万条轨迹，横跨21种机器人本体，确保了任务、视角和场景的广泛覆盖，为模型学习跨本体和跨任务的通用表示提供了坚实基础。区别于仅包含专家演示的数据集，RBM-1M刻意包含了海量的次优和失败轨迹，这反映了真实机器人学习中的常态，使得基于该数据集训练的奖励模型能够更准确地理解任务完成的连续谱系，而非二元化的成功与失败。此外，数据集通过视频回放、序列修剪和跨任务对比等多种数据增强策略，生成了丰富的合成偏好对，进一步增强了模型区分执行质量、抵抗视觉混淆和把握任务语义的能力。这种对混合质量数据的大规模整合，是推动奖励模型实现更好校准和更强泛化能力的关键。

使用方法

RBM-1M数据集主要用于训练如ROBOMETER这类通用、密集的奖励模型。其使用方法紧密围绕其双目标训练范式展开：一方面，利用数据集中专家轨迹的帧级进度标签，通过回归损失监督模型学习绝对奖励幅度；另一方面，更重要的是利用整个数据集（包括未标注的失败轨迹）构建轨迹对比对，通过偏好预测损失为模型提供全局排序约束。在实际训练中，通过动态采样策略生成训练样本：包括基于进度差异的对比（区分专家与失败）、基于指令负例的对比（确保奖励与任务语义对齐）以及基于视频回放的增强对比（模拟策略探索中的失败）。训练出的奖励模型可零样本应用于多种下游机器人学习范式：为在线强化学习提供密集奖励和自动成功检测；在包含噪声和专家轨迹的离线强化学习中实现更稳定的策略提取；作为无监督过滤器从大规模未标注数据中检索高质量演示子轨迹；以及进行零样本的跨本体故障检测，通过监测预测进度的异常模式（如骤降或停滞）来识别执行失败。

背景与挑战

背景概述

RBM-1M数据集由南加州大学、华盛顿大学、麻省理工学院等机构的研究团队于2026年提出，旨在解决机器人学习领域中通用奖励模型的可扩展性问题。该数据集包含超过一百万条轨迹，涵盖21种机器人平台，整合了专家演示轨迹与大量未标记的失败轨迹，其核心研究问题是通过轨迹比较监督来学习全局一致的奖励函数，从而提升下游强化学习、模仿学习等应用的性能。RBM-1M的构建推动了机器人奖励建模从依赖绝对进度标签向结合相对偏好监督的范式转变，为大规模异构数据的高效利用提供了关键基础。

当前挑战

RBM-1M面临的挑战主要体现在两个方面：在领域问题层面，传统奖励模型仅依赖专家轨迹的绝对进度标签，难以有效利用现实中普遍存在的失败与次优轨迹，导致模型泛化能力受限；而RBM-1M通过引入轨迹对偏好预测，需解决跨平台、跨任务场景下奖励信号的全局校准问题。在构建过程中，数据集成来自多样化的机器人平台与人类演示视频，需统一不同数据源的视角、场景和进度标注格式，同时针对失败轨迹缺乏密集进度标签的难题，设计了视频回放、序列修剪等增强策略来生成合成偏好对，以确保模型能够从异构数据中学习稳健的奖励表示。

常用场景

经典使用场景

在机器人学习领域，RBM-1M数据集作为大规模奖励建模的核心资源，其经典使用场景在于训练通用型视觉-语言奖励模型，如ROBOMETER框架所示。该数据集通过整合超过一百万条轨迹，覆盖21种机器人本体，并包含专家演示与失败轨迹的混合数据，使得模型能够同时利用帧级进度监督与轨迹级偏好监督进行训练。这种双目标训练机制使奖励模型不仅能预测任务进展，还能从轨迹对比中学习全局排序约束，从而在多样化的机器人任务和场景中实现高效、可扩展的奖励学习。

衍生相关工作

RBM-1M数据集衍生了一系列经典研究工作，主要集中在奖励建模与机器人学习的交叉领域。基于该数据集训练的ROBOMETER模型已成为通用奖励建模的基准框架，其双监督机制启发了后续如RoboReward、VLAC等模型的改进。此外，数据集中的失败轨迹和偏好对生成策略被广泛应用于数据增强方法，如视频回放和跨任务对比，促进了奖励学习的数据效率研究。这些工作不仅深化了对奖励函数可扩展性的理解，还为机器人策略学习提供了更强大的奖励信号基础。

数据集最近研究