RoSHI
收藏arXiv2026-04-09 更新2026-04-10 收录
下载链接:
https://roshi-mocap.github.io/
下载链接
链接失效反馈官方服务:
资源简介:
RoSHI是由宾夕法尼亚大学团队开发的机器人导向野外人体数据集,通过融合低成本惯性测量单元(IMU)和Project Aria眼镜的自我中心感知,捕捉同步的3D人体姿态、全局轨迹和第一人称RGB视频。数据集包含多样化的全身运动数据,强调长期稳定性和动态运动捕捉,适用于人形机器人策略学习。其创新性在于结合视觉与惯性传感优势,解决了传统方法在遮挡和高速运动中的局限性。该数据集通过开源硬件设计和轻量级姿态生成方法,为机器人学习提供了高质量、低成本的野外运动数据接口。
RoSHI is a robot-oriented in-the-wild human dataset developed by a team from the University of Pennsylvania. It captures synchronized 3D human poses, global trajectories, and first-person RGB videos by fusing low-cost Inertial Measurement Units (IMUs) and egocentric perception from Project Aria glasses. The dataset contains diverse full-body motion data, emphasizes long-term stability and dynamic motion capture, and is suitable for humanoid robot policy learning. Its innovation lies in combining the advantages of visual and inertial sensing, addressing the limitations of traditional methods in occlusion and high-speed motion scenarios. This dataset provides a high-quality, low-cost in-the-wild motion data interface for robot learning via open-source hardware designs and lightweight pose generation methods.
提供机构:
宾夕法尼亚大学·电气与系统工程系
创建时间:
2026-04-09
原始信息汇总
RoSHI数据集概述
数据集名称
RoSHI: A Versatile Robot-oriented Suit for Human Data In-the-Wild
作者
Wenjing Margaret Mao*, Jefferson Ng*, Luyang Hu*, Daniel Gehrig, Antonio Loquercio (*表示同等贡献,姓名随机排序)
发表会议/状态
IROS 2026 (Under Review)
数据集简介
RoSHI是一种混合可穿戴设备,融合了低成本稀疏IMU与Project Aria眼镜,通过第一人称视角感知,在度量全局坐标系中估计穿戴者的完整3D姿态和身体形状。该系统旨在收集包含丰富、长时程野外交互的人类数据,以扩展机器人学习。
系统构成与方法
- 硬件组成:结合九个低成本IMU追踪器(每个约30美元,基于BNO085,100 Hz无线传输)与Project Aria眼镜,同步捕获3D身体姿态、第一人称RGB视频和全局一致的根轨迹。
- 传感器互补性:IMU提供对视觉遮挡和高速运动的鲁棒性,而第一人称SLAM则锚定长时程全局定位并稳定上半身姿态。
- 校准方法:仅需使用iPhone拍摄一段20-40秒的校准视频(穿戴套装时)。每个追踪器刚性安装一个AprilTag;结合校准视频的SAM 3D Body估计,无需盒子校准或规定姿势即可恢复传感器到骨骼以及跨传感器航向对齐。支持随时快速重新校准,无需拆卸IMU。
- 身体姿态生成:利用以Aria SLAM提供的6-DoF头戴设备轨迹为条件的EgoAllo扩散模型。使用从IMU追踪器导出的骨骼方向引导扩散,并强制执行三个互补约束:(i) 可观察关节角度(肘、髋、膝)的直接比较,(ii) 骨盆与肩部之间相对方向的一致性,(iii) 连续帧间骨盆关节旋转的时间平滑性。
评估结果
在涵盖原地运动、带全局平移的移动以及敏捷运动类活动的三个数据集的11个运动序列上评估RoSHI。
定量结果
- 评估指标:平均每关节位置误差(MPJPE,单位:厘米)和关节角度误差(JAE,单位:度)。
- 性能表现:RoSHI在所有三个数据集上均取得最佳MPJPE,并在三个中的两个数据集上取得最佳JAE,在第一人称基线方法中,在全局关节定位和关节姿态重建方面均显示出持续改进。
| 方法 | 第一人称 | 数据集1 | 数据集2 | 数据集3 |
|---|---|---|---|---|
| MPJPE (cm) | JAE (deg) | MPJPE (cm) | ||
| SAM3D | ✗ | 10.3 | 10.5 | 10.5 |
| IMU-only (naive) | ✓ | 16.7 | 12.6 | 18.8 |
| IMU + EgoAllo root | ✓ | 12.7 | 12.5 | 11.9 |
| EgoAllo | ✓ | 10.6 | 15.6 | 10.0 |
| RoSHI (ours) | ✓ | 9.6 | 12.0 | 9.9 |
注:MPJPE在OptiTrack世界坐标系中计算;JAE从父子骨骼方向计算(独立于全局/根姿态)。SAM3D依赖外部校准相机,因此不是公平的基线(以灰色显示)。
数据集内容
- 🧍 数据集1:原地运动:行走/正步/慢跑/跑步、伸展/拳击/鞠躬/挥手、开合跳/深蹲/单腿深蹲、拾取箱子。
- 🚶 数据集2:带全局平移的移动:行走/打招呼/行走、拾取物品/绕行、行走/来回慢跑、跳跃。
- 🏃 数据集3:敏捷活动:滑行、网球、投球/接球。
应用展示
使用来自RoSHI的运动数据用于人形机器人策略学习的演示,包括网球和跳跃动作。
代码与资源
RoSHI系统组织为模块化代码库,所有代码库将公开可用。
- RoSHI Core Algorithm:完整姿态估计流水线,包含IMU引导的EgoAllo扩散、传感器融合、校准处理和SMPL身体模型输出。GitHub链接:https://github.com/roshi-mocap/roshi-core
- RoSHI-App:用于校准RoSHI可穿戴系统的iOS应用程序。通过LAN捕获RGB视频(带实时AprilTag检测)并与9个身体安装的IMU传感器同步。GitHub链接:https://github.com/roshi-mocap/roshi-app
- RoSHI-Hardware:硬件设计文件、3D打印外壳、物料清单以及用于9个无线IMU追踪器(基于BNO085,100 Hz)的ESP32固件。GitHub链接:https://github.com/roshi-mocap/roshi-hardware
致谢
本研究由DARPA(协议号HR0011-24-9-0430)和瑞士国家科学基金会(资助号225354)支持。感谢Meta Aria团队的支持以及提供Aria硬件和软件基础设施的访问权限。感谢Nalini Jain测试代码库并录制定性评估视频,感谢Nadia实验室的Paul (Sanghyub) Lee协助使用OptiTrack收集地面真实人体运动数据。
搜集汇总
数据集介绍

构建方式
在机器人学习领域,获取真实世界中丰富且长时程的人类交互数据至关重要。RoSHI数据集的构建采用了创新的混合可穿戴系统,巧妙融合了低成本稀疏惯性测量单元与Project Aria眼镜的自我中心感知能力。该系统通过九个消费级IMU传感器实时捕捉佩戴者的骨骼朝向,同时利用眼镜提供的自我中心SLAM实现全局轨迹估计与RGB视频流采集。多模态信号通过精确的时间戳同步机制进行对齐,并借助基于扩散模型的姿态生成框架,将IMU的朝向引导与SLAM的全局条件相结合,最终在全局坐标系中重建出同步的3D人体姿态、自我中心视频与度量级根轨迹。
特点
该数据集的核心特点在于其卓越的便携性与在非受控环境下的鲁棒性。相较于依赖标记点或固定摄像头的传统动作捕捉方案,RoSHI摆脱了对预置仪器空间或外部设备的依赖,实现了真正意义上的野外数据采集。其数据质量强调长时程稳定性与可靠性,而非单纯的逐帧精度,这使其特别适用于需要物理一致性的机器人技能迁移。数据集包含行走、奔跑、跳跃乃至网球挥拍等多种敏捷活动序列,覆盖了室内外不同场景,有效模拟了现实世界的复杂性与动态性,为人体运动建模与人形机器人策略学习提供了极具价值的真实世界交互范例。
使用方法
RoSHI数据集为机器人学,特别是人形机器人控制研究,提供了端到端的数据管道。研究者可直接利用数据集提供的同步3D人体姿态、全局轨迹及自我中心视频,作为模仿学习的示范数据。通过标准的运动重定向工具,可将采集到的人类动作序列转化为机器人关节空间轨迹,进而用于训练强化学习策略。数据集所强调的全局一致性与物理合理性,确保了学习到的策略能够顺利迁移至实体机器人平台,执行如搬运、鞠躬、挥拍等动态任务。此外,其开源的数据采集栈与硬件设计也支持社区在此基础上进行扩展与定制化数据收集。
背景与挑战
背景概述
随着机器人学习对大规模、多样化人类数据需求的日益增长,在非受控环境中采集长时程、动态人体运动数据成为关键挑战。RoSHI数据集由宾夕法尼亚大学电气与系统工程系的Wenjing Margaret Mao、Jefferson Ng等研究人员于2026年提出,旨在解决人形机器人策略学习中高质量、可移植运动数据采集的瓶颈。该数据集通过融合低成本惯性测量单元与Project Aria眼镜的自我中心感知,同步捕获三维人体姿态、度量级全局轨迹及第一人称RGB视频,其设计核心在于平衡系统的便携性、抗遮挡能力与全局一致性,为人形机器人的技能迁移与策略学习提供了至关重要的数据基础。
当前挑战
RoSHI数据集致力于解决人形机器人模仿学习中动态、长时程人体运动数据采集的核心挑战。其首要挑战在于克服传统运动捕捉方案在便携性、成本与鲁棒性之间的固有权衡:基于标记的光学系统依赖仪器化空间且成本高昂;商用惯性动作捕捉服缺乏全局定位且价格昂贵;而纯视觉方案易受遮挡、光照与相机视角限制。在构建过程中,系统需有效融合稀疏惯性测量单元与自我中心视觉的互补信号,以在长时程操作中维持全局轨迹一致性并抵抗视觉遮挡。此外,校准流程需在保证精度的同时简化操作,避免依赖预设姿态或离线标定,从而支持穿戴状态下的快速重校准,以适应大规模野外数据采集的实际需求。
常用场景
经典使用场景
在机器人学习领域,获取真实世界中人类动态运动的高质量数据是推动仿人机器人技能发展的关键。RoSHI系统通过融合低成本惯性测量单元与Project Aria眼镜的视觉感知,在非受控的日常环境中实现了长时序、全局一致的三维人体姿态捕捉。该系统最经典的应用场景在于为仿人机器人的强化学习策略训练提供大规模、多样化的运动示范数据,例如跳跃、奔跑、鞠躬等动态行为,有效解决了传统动捕系统在户外场景部署困难、成本高昂的瓶颈。
解决学术问题
RoSHI数据集主要致力于解决机器人学习领域中高质量人类示范数据稀缺的学术难题。传统动捕系统如Vicon依赖仪器化空间且成本高昂,而纯视觉方法易受遮挡和光照影响。RoSHI通过多模态传感器融合,在保证长期运动稳定性和全局轨迹一致性的前提下,以可移植、低成本的方式获取了同步的3D人体姿态、自我中心RGB视频和度量级根轨迹。这为人类运动到机器人技能迁移的研究提供了可靠的数据基础,显著降低了数据收集的门槛,推动了大规模机器人学习范式的发展。
衍生相关工作
RoSHI的工作建立在多项经典研究的基础之上,并与之形成了互补与拓展。其系统设计借鉴了SlimeVR等开源低成本IMU方案的可访问性思想,同时集成了如EgoAllo等基于自我中心视觉的人体姿态估计前沿方法。在机器人技能学习方面,RoSHI生成的数据可与DeepMimic、BeyondMimic等模仿学习框架紧密结合,用于训练全身控制策略。此外,其多模态融合范式也为后续研究如何更鲁棒地结合视觉与惯性信号以应对极端遮挡和高速运动场景提供了重要的技术参考和基准数据集。
以上内容由遇见数据集搜集并总结生成



