RBench

Hugging Face2026-01-22 更新2026-01-23 收录

下载链接：

https://huggingface.co/datasets/DAGroup-PKU/RBench

下载链接

链接失效反馈

官方服务：

资源简介：

RBench是一个精心策划的评估基准，旨在系统评估视频生成模型在现实机器人场景中的能力。该基准从任务类别和机器人体现类型两个互补的角度构建，共包含650个图像文本评估案例。任务导向的评估集包含250个图像文本对，涵盖五个代表性机器人任务类别；体现导向的评估集包含400个图像文本对，涵盖四种主流机器人体现类型。每个评估样本以JSON格式存储，包括唯一标识符、参考图像路径、任务描述、关键语义实体和相机视角等信息。该基准适用于图像到视频（I2V）和视频生成评估，以及视觉语言模型（VLM / MLLM）的基准测试。

创建时间：

2026-01-15

原始信息汇总

RBench 数据集概述

数据集基本信息

名称: RBench
许可证: CC BY 4.0
任务类别: 图像到视频、机器人技术
语言: 英语
标签: 机器人视频生成、基准测试
数据规模: 100-1k
摘要: RBench 是一个精心策划的评估基准，旨在系统评估视频生成模型在现实机器人场景中的能力。

基准测试结构

该基准测试从两个互补的视角构建：任务类别和机器人具身类型，总共涵盖 650 个图像-文本评估案例。

任务导向评估集（5项任务）

任务导向部分包含 250 个图像-文本对，每项任务 50 个样本，涵盖五个具有代表性的机器人任务类别：

常见操作: 日常物体操作任务
长时程规划: 需要多步规划的连续动作
多实体协作: 涉及多个智能体的交互
空间关系: 关于相对位置和空间约束的推理
视觉推理: 需要超越直接观察的视觉推断的任务

具身导向评估集（4种具身类型）

具身导向部分包含 400 个图像-文本对，每种具身类型 100 个样本，涵盖四种主流的机器人具身类型：

双臂机器人
人形机器人
单臂机器人
四足机器人 此部分用于评估生成模型是否能正确反映特定具身的物理结构和动作可能性。

数据格式

每个评估样本以 JSON 格式存储，包含：

name: 唯一样本标识符
image_path: 参考图像的路径
prompt: 简洁的任务描述
robotic manipulator / manipulated object: 关键语义实体
view: 摄像机视角（例如，第一人称）图像以 JPEG 格式提供。

用途

此基准测试适用于：

图像到视频和视频生成评估
视觉语言模型 / 多模态大语言模型基准测试

引用

如果使用此数据集，请引用论文： bibtex @misc{deng2026rethinkingvideogenerationmodel, title={Rethinking Video Generation Model for the Embodied World}, author={Yufan Deng and Zilin Pan and Hongyu Zhang and Xiaojie Li and Ruoqing Hu and Yufei Ding and Yiming Zou and Yan Zeng and Daquan Zhou}, year={2026}, eprint={2601.15282}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.15282}, }

搜集汇总

数据集介绍

构建方式

在具身人工智能领域，评估视频生成模型在真实机器人场景中的表现至关重要。RBench基准的构建采用了双重视角的结构化方法，从任务类别与机器人本体类型两个维度系统性地组织评估案例。该数据集共包含650个图像-文本评估对，其中任务导向部分涵盖五大代表性机器人任务类别，每个类别精心挑选50个样本；本体导向部分则覆盖四种主流机器人本体形态，每种形态包含100个样本。这种构建方式确保了评估的全面性与针对性，为模型能力提供了多维度的检验框架。

特点

RBench基准的显著特征在于其高度的结构化和场景真实性。数据集不仅区分了日常操作、长程规划、多实体协作等复杂任务范畴，还纳入了双臂、人形、单臂与四足等多样化的机器人物理形态，从而能够细致考察生成模型对特定本体结构与动作可行性的理解。每个评估样本均以JSON格式封装，包含唯一标识符、参考图像路径、任务描述及关键语义实体等信息，这种标准化格式便于自动化评估流程的集成与应用。

使用方法

该数据集主要服务于图像到视频生成模型以及视觉语言模型的系统性评测。研究人员可将模型在RBench提供的多样化图像-文本对上生成视频输出，进而依据任务完成度与本体一致性等维度进行定量与定性分析。数据集配套的在线排行榜进一步促进了公平比较与学术交流。使用前需遵循CC BY 4.0许可协议，并在相关研究中引用配套的学术文献，以确保学术规范的完整性。

背景与挑战

背景概述

在具身人工智能与机器人技术深度融合的背景下，视频生成模型在模拟真实物理交互与规划复杂动作序列方面展现出巨大潜力。RBench数据集由北京大学DAGroup团队于2026年创建，其核心研究问题在于系统评估视频生成模型在多样化、高保真机器人场景中的表现能力。该数据集通过整合任务导向与具身导向的双重视角，构建了涵盖常见操作、长程规划、多智能体协作等五大任务类别以及双臂、人形、单臂、四足四大机器人形态的评估体系，旨在推动生成模型在具身世界理解与仿真方面的前沿探索，对机器人学、计算机视觉及多模态人工智能的交叉研究具有显著的引领作用。

当前挑战

RBench数据集所应对的核心领域挑战在于，现有视频生成模型在模拟具身智能体与物理环境进行复杂、长程交互时，往往难以保证动作的物理合理性、时序一致性以及对特定机器人形态运动约束的准确反映。具体而言，模型需要克服在多变视角、多实体交互及空间关系推理等场景下生成高保真、可执行动作序列的难题。在数据集构建过程中，挑战主要源于如何系统性地定义与采集涵盖广泛机器人任务与形态的评估样本，确保每个图像-文本对在语义上的精确对齐，以及在有限数据规模下仍能全面反映现实机器人应用的多样性与复杂性，从而为模型评估提供可靠且具有区分度的基准。

常用场景

经典使用场景

在具身智能与机器人视觉领域，RBench数据集作为一套精心构建的评估基准，其经典应用场景在于系统性地评测视频生成模型在真实机器人任务中的表现。该基准从任务类别与机器人本体类型两个互补维度构建了650个图文评估案例，涵盖了日常操作、长程规划、多实体协作等五大任务类别，以及双臂、人形、单臂、四足四种主流机器人本体。研究者通过将静态图像与任务描述作为输入，要求模型生成对应的任务执行视频，从而在高度结构化的环境中检验模型对物理交互、空间关系及本体约束的理解与生成能力。

解决学术问题

RBench的构建旨在解决当前视频生成模型在面向具身世界应用时存在的关键学术问题。传统视频生成模型多关注于通用场景的视觉逼真度，而缺乏对机器人特定任务逻辑、物理约束及本体形态的建模能力。该数据集通过引入任务导向与本体导向的评估集，为学术界提供了量化模型在机器人场景下生成视频的语义一致性、物理合理性与任务完成度的标准工具。其意义在于推动了生成模型从“视觉合成”向“物理感知与任务理解”的范式转变，为构建真正理解并模拟物理交互的智能体奠定了评估基础。

衍生相关工作

围绕RBench数据集，已衍生出一系列专注于具身视频生成的经典研究工作。其核心关联工作“ReVidgen”项目提出了重新思考面向具身世界的视频生成模型架构，旨在提升模型对物理约束和任务语义的建模能力。该基准也催生了针对特定机器人本体（如人形或四足机器人）的视频生成算法优化，以及结合大语言模型或视觉语言模型进行任务条件解析与规划的研究。这些工作共同构成了一个新兴的研究方向，即如何使生成模型不仅“看见”世界，更能“理解”并“模拟”物理实体在其中的交互行为。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集