RoboTwin 2.0
收藏github2026-02-13 更新2026-02-14 收录
下载链接:
https://github.com/tsinghua-fib-lab/WorldArena
下载链接
链接失效反馈官方服务:
资源简介:
RoboTwin 2.0是一个用于双手机器人操作的仿真框架和基准,提供了多种操作任务的专家轨迹,并支持结构化领域随机化以进行鲁棒评估。本项目使用了RoboTwin 2.0数据集的一个子集,包含50个任务(Clean-50设置),每个任务50个片段,训练/测试分割为每个任务40个片段用于训练,10个片段用于测试。机器人体现为Aloha-AgileX(如`aloha-agilex_clean_50`所示)。数据组织包括动作序列、视频片段、机器人状态/每时间步元数据以及自然语言任务指令/变体。
RoboTwin 2.0 is a simulation framework and benchmark for dual-arm robotic manipulation, offering expert trajectories for a wide range of manipulation tasks and supporting structured domain randomization to enable robust evaluation. This work utilizes a subset of the RoboTwin 2.0 dataset, which encompasses 50 tasks under the Clean-50 setting, with 50 episodes per task. The training/test partition is set such that 40 episodes per task are allocated for training, while the remaining 10 episodes are used for testing. The adopted robotic platform is Aloha-AgileX, as denoted by the identifier `aloha-agilex_clean_50`. The dataset is structured to include action sequences, video clips, robot state metadata per time step, and natural language task instructions along with their variants.
创建时间:
2026-02-11
原始信息汇总
WorldArena 数据集概述
数据集基本信息
- 数据集名称: WorldArena
- 核心目标: 提供一个统一的基准,用于系统评估具身世界模型在感知和功能两个维度的性能。
- 评估维度:
- 视频感知质量: 通过六个子维度的十六个指标进行衡量。
- 具身任务功能: 评估世界模型作为合成数据引擎、策略评估器和动作规划器的能力。
- 人工评估: 包括整体质量、物理规律遵循、指令遵循和头对头胜率。
- 综合指标: 提出了 EWMScore,一个将多维度性能整合为单一可解释指数的整体性度量。
数据来源与构成
- 基础数据集: 本项目使用了 RoboTwin 2.0 数据集的一个子集。RoboTwin 2.0 是一个用于双手机器人操作的仿真框架和基准,提供了多样化操作任务中的专家轨迹,并支持结构化领域随机化以进行鲁棒评估。
- 本项目使用的子集详情:
- 任务数量: 50个任务(Clean-50设置)。
- 每任务片段数: 50个片段。
- 训练/测试划分(每任务): 40个片段用于训练,10个片段用于测试。
- 机器人具身: Aloha-AgileX(由
aloha-agilex_clean_50标识)。
- 数据组织(每个任务): 典型任务目录结构示例如下(以
adjust_bottle/aloha-agilex_clean_50/aloha-agilex_clean_50/为例):actions/— 低级动作序列。video/— 任务片段视频。states/— 机器人状态 / 每时间步元数据。instructions/(及可选的instructions_1,instructions_2) — 自然语言任务指令 / 变体。
相关资源链接
- WorldArena 官方网站: https://world-arena.ai/
- WorldArena 论文: https://arxiv.org/abs/2602.08971
- WorldArena 排行榜: https://huggingface.co/spaces/WorldArena/WorldArena
- 基础数据集 (RoboTwin 2.0) 官方网站: https://robotwin-platform.github.io/
- 基础数据集 (RoboTwin 2.0) 官方仓库: https://github.com/RoboTwin-Platform/RoboTwin
- 基础数据集 (RoboTwin 2.0) 发布地址: https://huggingface.co/datasets/TianxingChen/RoboTwin2.0
- 具身任务评估实现: https://github.com/tsinghua-fib-lab/WorldArena/tree/main/embodied_task
- 人工评估参与入口: https://sd64n7jjtvotb9m1apn80.apigateway-cn-beijing.volceapi.com/
评估与参与
- 排行榜: 官方排行榜托管于 HuggingFace,提供跨视频感知质量、具身任务功能和统一 EWMScore 的标准化评估结果。
- 提交: 提交功能即将开放。
- 人工评估: 邀请用户参与人工评估,对生成的视频提供判断,以帮助发现隐藏的失败案例并使自动化指标与真实人类感知对齐。
搜集汇总
数据集介绍

构建方式
在具身智能领域,RoboTwin 2.0 数据集为双手机器人操作提供了一个系统化的仿真框架与基准。该数据集通过精心设计的仿真环境,采集了涵盖多样化操作任务的专家演示轨迹。其构建过程采用了结构化的领域随机化技术,旨在增强模型在复杂多变场景下的泛化能力与鲁棒性评估。数据组织以任务为单位,每个任务目录下均包含动作序列、视频记录、机器人状态及自然语言指令等多模态信息,确保了数据的一致性与完整性。
使用方法
该数据集主要用于训练与评估具身世界模型在感知与功能两方面的性能。研究人员可依据其提供的训练轨迹,开发视频预测、策略学习或世界模型生成算法。在评估阶段,数据集支持对模型生成的视频进行多维度质量分析,包括物理一致性、指令跟随度等指标。同时,通过将世界模型作为合成数据引擎或动作规划器,可在仿真环境中执行具体的操作任务,以测试其功能效用。数据集已集成于WorldArena统一基准中,研究者可通过官方渠道提交模型结果,参与标准化评测与排行榜排名。
背景与挑战
背景概述
在具身人工智能领域,构建能够准确理解并交互物理世界的智能体是核心研究目标。RoboTwin 2.0数据集由相关研究团队于2026年发布,作为一个专注于双手机器人操作的仿真框架与基准测试平台,旨在为复杂操作任务提供专家级轨迹数据。该数据集通过支持结构化领域随机化,致力于评估模型在多样化、真实场景下的泛化与鲁棒性,为机器人学习与具身世界模型的发展提供了关键的数据基础与评估标准,推动了从感知到功能执行的系统性研究。
当前挑战
RoboTwin 2.0数据集致力于解决双手机器人灵巧操作这一领域核心问题,其挑战在于如何精确建模高自由度机械臂在非结构化环境中的动态交互与物理约束。在构建过程中,挑战体现在大规模专家轨迹的数据采集与标注,需确保动作序列的连贯性与物理真实性;同时,设计支持结构化领域随机化的仿真环境,以覆盖任务、物体属性及光照条件的高度多样性,从而构建一个既具广度又保真度的基准测试集,对数据生成与仿真技术提出了严峻考验。
常用场景
经典使用场景
在具身人工智能领域,RoboTwin 2.0数据集为双手机器人操作任务提供了系统性的评估基准。其经典使用场景聚焦于模拟环境中复杂物体操控的专家轨迹学习与策略验证,通过提供多样化的任务场景和结构化领域随机化,支持研究者训练和测试世界模型在感知与功能维度的综合性能。该数据集常被用于构建逼真的仿真环境,以评估模型在动态交互中的泛化能力和物理一致性。
解决学术问题
RoboTwin 2.0数据集有效解决了具身智能研究中世界模型评估标准不统一的核心问题。它通过整合视频感知质量与具身任务功能性的多维度量,为衡量模型在物理推理、指令遵循和动作规划等方面的能力提供了标准化框架。该数据集促进了从单纯感知评估向功能实用性评估的范式转变,推动了具身世界模型向真正可操作、可泛化的方向发展,为领域内的量化比较与进展追踪奠定了坚实基础。
实际应用
在实际应用层面,RoboTwin 2.0数据集为机器人技能学习与自主操作系统的开发提供了关键支撑。基于其丰富的专家示范数据,研究人员能够训练机器人执行诸如调整瓶盖、组装物体等精细的双手操作任务。该数据集支持的仿真平台可加速策略在真实机器人上的部署测试,降低实体实验的成本与风险,从而推动家庭服务、工业装配等场景中智能机器人系统的实用化进程。
数据集最近研究
最新研究方向
在具身智能领域,世界模型作为连接感知与行动的核心架构,其评估标准正从单一的视频生成质量向多功能效用扩展。WorldArena基准利用RoboTwin 2.0数据集的双手机器人操作轨迹,系统性地衡量模型在视频感知质量、具身任务功能及人类评估等多维度的性能。该框架提出的EWMScore综合指标,旨在将分散的评估维度整合为统一的可解释指数,推动了世界模型在合成数据生成、策略评估与行动规划等前沿方向的发展。通过公开的排行榜和人类评估机制,研究社区得以在公平可复现的协议下,共同探索具身世界模型在复杂物理环境中的真实功能效用,为迈向通用机器人智能奠定了关键的评估基础。
以上内容由遇见数据集搜集并总结生成



