TWIST2

Name: TWIST2
Creator: 斯坦福大学, 亚马逊前沿人工智能与机器人实验室, 南加州大学, 加州大学伯克利分校, 卡内基梅隆大学
Published: 2025-11-05 02:58:35
License: 暂无描述

arXiv2025-11-05 更新2025-11-06 收录

下载链接：

https://twist-data.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

TWIST2 是一个便携式、无需动捕的人形机器人遥操作和数据收集系统，具有完整的全身控制功能。该系统利用 PICO4U VR 设备获取实时的全身人类动作，并通过一个定制的 2-DoF 机器人颈部（约 250 美元）实现自中心视觉，从而实现全面的从人到人形机器人的控制。TWIST2 能够进行长距离、灵活、移动的人形机器人技能演示，并且能够在 15 分钟内收集约 100 个成功的演示。基于此管道，我们提出了一种分层视觉运动策略框架，该框架基于自中心视觉自主控制整个人形机器人身体。我们的视觉运动策略成功地展示了全身灵活的操作和动态踢球任务。整个系统是完全可复制的，并在 https://yanjieze.com/TWIST2 上开源。我们的收集的数据集也在 https://twistdata.github.io 上开源。

TWIST2 is a portable, motion-capture-free teleoperation and data collection system for humanoid robots, featuring full-body control capabilities. This system uses the PICO4U VR device to capture real-time full-body human motions, and implements egocentric vision via a custom 2-DoF robotic neck (approximately $250), thereby enabling comprehensive human-to-humanoid robot teleoperation. TWIST2 supports long-distance, flexible, mobile humanoid robot skill demonstrations, and can collect approximately 100 successful demonstrations within 15 minutes. Based on this pipeline, we propose a hierarchical visuomotor policy framework that autonomously controls the entire humanoid robot body using egocentric vision. Our visuomotor policy has successfully demonstrated full-body dexterous manipulation and dynamic kicking tasks. The entire system is fully reproducible and open-sourced at https://yanjieze.com/TWIST2. Our collected dataset is also open-sourced at https://twistdata.github.io.

提供机构：

斯坦福大学, 亚马逊前沿人工智能与机器人实验室, 南加州大学, 加州大学伯克利分校, 卡内基梅隆大学

创建时间：

2025-11-05

原始信息汇总

TWIST数据集概述

数据集简介

TWIST项目致力于构建最有效、最全面的人形机器人数据收集系统，专注于扩展人形机器人全身运动操作数据。

核心原则

小数据集同样有价值，50次演示的简单单任务数据集也具有价值
采用标准化硬件（Unitree G1 + Unitree Dex31手 + TWIST2颈部）实现统一和可扩展的数据收集
统一的状态/动作接口使人形策略学习具有可扩展性

数据集列表

TWIST2: 可扩展、便携、全面的人形数据收集系统

联系人: yanjieze@stanford.edu
任务: 双手操作
数据链接: https://huggingface.co/1 https://huggingface.co/2
https://huggingface.co/3 https://huggingface.co/4
观察: 立体图像、最后动作
动作: 基础、身体、手部、颈部
演示数量: 200
许可证: MIT许可证
备注: 所有任务在同一真实世界设置中收集

其他任务数据集

踢T任务: 50次演示
折叠毛巾: 2次演示
从地面拾取砖块: 5次演示

数据格式

文件结构

TASK_NAME/ episode_0000/ rgb/ 000000.png 000001.png ... data.json episode_0001/ rgb/ 000000.png 000001.png ... data.json ...

数据结构

图像: 直接保存为.png文件
状态和动作: 保存为.json文件
图像规格: 1280×360分辨率，30fps帧率

数据字段

idx: 帧索引
rgb: RGB图像路径
state_body: 35维身体状态
state_hand_left/right: 7维手部关节状态
state_neck: 2维颈部关节状态
action_*: 对应控制动作值

引用信息

bibtex @article{ze2025twist2, title={TWIST2: Scalable, Portable, and Holistic Humanoid Data Collection System}, author={Ze, Yanjie and Zhao, Siheng and Wang, Weizhuo and Kanazawa, Angjoo and Duan, Rocky and Abbeel, Pieter and Shi, Guanya and Wu, Jiajun and Liu, C. Karen}, journal={arXiv preprint arXiv:2509.XXXX}, year={2025} }

搜集汇总

数据集介绍

构建方式

在仿人机器人数据采集领域，TWIST2系统通过整合轻量级VR设备与低成本颈部模块构建数据集。该系统采用PICO 4U VR设备实时捕捉人体全身运动，结合自主研发的2自由度颈部结构实现仿人机器人视角的主动立体视觉。通过改进的广义运动重定向算法，将人体动作映射至29自由度的Unitree G1机器人关节空间，并利用强化学习训练通用运动追踪控制器执行物理动作。整个采集流程仅需单操作员在20分钟内完成约100次连续成功演示，且无需依赖传统动作捕捉系统。

使用方法

该数据集适用于分层视觉运动策略的训练与验证。研究者可基于数据集提供的视觉-动作对，构建以扩散策略为核心的高层决策模型。具体而言，系统将224×224分辨率的立体视觉输入与历史动作指令序列作为观测空间，通过预训练的ResNet-18视觉编码器提取特征，并采用时序卷积网络预测未来2秒的全身关节目标位置。训练过程中需应用高斯噪声注入与随机色彩抖动等数据增强技术，最终生成的ONNX格式策略模型可在NVIDIA RTX 4090上实现20Hz实时推理。该框架支持机器人仅依靠本体视觉自主完成全身协调操作任务。

背景与挑战

背景概述

TWIST2数据集由亚马逊前沿人工智能与机器人实验室联合斯坦福大学、加州大学伯克利分校等机构于2025年推出，旨在解决人形机器人领域缺乏高效数据采集框架的核心问题。该系统通过轻量级VR设备和可附加颈部模块实现无动作捕捉的全身控制，支持长时程、精细化的移动操作任务，为人形机器人视觉运动策略学习提供了高质量示范数据，显著推动了具身智能在复杂环境交互中的发展。

当前挑战

该数据集主要应对人形机器人全身协调控制与长时程操作任务的复杂性挑战，包括动态步态平衡、多模态感知融合以及精细手部操作的协同控制。在构建过程中，需克服低成本运动估计设备精度不足导致的关节映射误差，解决视觉-运动数据流的高效同步问题，并确保单操作员模式下系统延迟低于0.1秒的实时性要求。

常用场景

解决学术问题

该数据集有效解决了仿人机器人领域缺乏高效数据收集框架的学术难题。传统系统要么采用分离式控制策略，要么依赖昂贵的动作捕捉设备，而TWIST2在保持全身控制能力的同时实现了便携性和可扩展性。其提供的全身关节位置数据和视觉观察信息，为研究基于视觉的全身自主控制策略奠定了数据基础，突破了以往仅能处理简化命令的局限。

实际应用

在实际部署中，TWIST2系统展现出卓越的操作效率，单个操作员可在20分钟内收集约100次成功的双手操作示范。其配备的立体视觉系统和主动颈部模块显著提升了远程操作的精确度，使得机器人能够执行跨门搬运等需要移动操作的长时程任务。这种高效的数据收集能力为实际场景中的机器人技能学习提供了可靠保障。

数据集最近研究