DexJoCo

Name: DexJoCo
Creator: 中国科学院自动化研究所; 上海交通大学; 穆罕默德·本·扎耶德人工智能大学; 北京基础医学研究所; 北京大学·Galbot; 香港中文大学
Published: 2026-05-16 01:59:51
License: 暂无描述

arXiv2026-05-16 更新2026-05-19 收录

下载链接：

https://dexjoco.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

DexJoCo是由中国科学院自动化研究所等机构联合创建的灵巧操作基准数据集与工具包，专注于评估多指机械手在复杂任务中的操作能力。该数据集包含1100条人类演示轨迹，覆盖工具使用、双手协调、长时序执行和推理等11类功能化任务，数据通过低成本动作捕捉手套系统采集并支持领域随机化重放。数据集旨在为机器人学习提供标准化评估框架，解决现有灵巧操作基准缺乏功能性任务设计和高质量人类演示数据的问题，推动实现人类级精细操作能力的研究进展。

提供机构：

中国科学院自动化研究所; 上海交通大学; 穆罕默德·本·扎耶德人工智能大学; 北京基础医学研究所; 北京大学·Galbot; 香港中文大学

创建时间：

2026-05-16

原始信息汇总

数据集概述：DexJoCo

DexJoCo 是一个面向 MuJoCo 环境中任务导向的灵巧操作（Dexterous Manipulation）的统一基准（Benchmark）与工具包（Toolkit）。

核心目标与特点

围绕 Franka Panda 机械臂与 Allegro 灵巧手构建，包含 11 个功能性任务。
提供低成本的动作捕捉数据采集系统、约 1,100 条人类示教轨迹。
支持基于回放的域随机化（Domain Randomization）以及现代模仿学习与 VLA 模型的评估。
任务设计强调功能性交互，而非孤立的物体重定位，涵盖工具使用、推理、双臂协调与长序列执行。

基准任务（Benchmark）

任务分为单臂与双臂两类，共 11 个：

类型	任务	描述
单臂	Water Plant	抓取喷壶给植物浇水
单臂	Hammer Nail	用锤子将钉子钉入木板
单臂	Click Mouse	将鼠标移动到鼠标垫并点击左键
单臂	Pick Bucket	将盒装食物放入桶中并提起桶
单臂	Pinch Tongs	抓取镊子并完成三次连续开合动作
单臂	Fold Glasses	折叠眼镜并放入眼镜盒
双臂	Bimanual Microwave	打开微波炉门、放入食物、关门、按下启动键
双臂	Bimanual Unlock iPad	抓取 iPad 并输入密码“123”解锁
双臂	Bimanual Hanoi	执行三阶汉诺塔的最后两步移动
双臂	Bimanual Assembly	左手抓托盘，右手抓销钉，将销钉插入孔中
双臂	Bimanual Photograph	左手抓相机对准标志，右手按下快门按钮

数据采集系统

硬件：Rokoko Smartgloves（捕捉手部运动）、HTC Vive Tracker 与 Base Station（追踪手腕与末端执行器位姿），总成本约 2,300 美元。
算法：采用 Retarget MLP 进行自监督重定向，将人类指尖位姿映射到 Allegro 灵巧手的关节配置，无需人工标注。
数据集：包含 1,100 条人类示教轨迹，每条轨迹记录第三人称与腕部视觉流、物体与机器人状态、TCP 位姿及手部关节角度。动作表示为绝对末端执行器位姿与手部关节角度。
格式兼容：数据可转换为 LeRobot Dataset v3.0 与 Diffusion Policy Zarr 等通用格式。

域随机化（Domain Randomization）

支持对以下内容进行随机化以评估视觉鲁棒性：

物体放置位置与桌面高度
第三人称相机位姿（在球面上采样并过滤遮挡）
光照方向与颜色
桌面纹理

基线模型性能

在仅物体随机化与全视觉随机化条件下，评估了 ACT、Diffusion Policy、π0.5 与 GR00T N1.5 等模型。困难的双臂任务与精确交互仍然是主要瓶颈。

模型	成功率
π0.5	52.5%
DP-Transformer	50.4%
DP-CNN	47.6%
GR00T-N1.5	40.2%
ACT	35.5%

引用格式

论文引用 BibTeX：

bibtex @article{wang2026dexjoco, title = {DexJoCo: A Unified Benchmark and Toolkit for Task-Oriented Dexterous Manipulation on MuJoCo}, author = {Wang, Hanwen and Zhao, Weizhi and Wang, Xiangyu and Huang, Siyuan and Lin, He and Zheng, Boyuan and Xu, Rongtao and Wang, Gang and Mu, Yao and Wang, He and Fan, Lue and Li, Hongsheng and Zhang, Zhaoxiang and Tan, Tieniu}, journal = {arXiv preprint arXiv:2605.16257}, year = {2026}, url = {https://dexjoco.github.io} }

资源链接

代码：https://github.com/DexJoCo
论文：https://dexjoco.github.io/DexJoCo.pdf
数据：https://huggingface.co/DexJoCo

搜集汇总

数据集介绍

构建方式

DexJoCo基于MuJoCo物理仿真引擎构建，整合了Rethink Robotics底座、Franka Panda机械臂与Allegro灵巧手。任务场景通过结构化构建，依据物体位姿、关节状态、接触条件及时间约束定义成功条件。数据采集采用低成本遥操作系统，利用Rokoko数据手套捕获手部运动，HTC Vive追踪器记录手腕位姿，并通过GeoRT自监督重定向算法将人类指尖运动映射为机器人关节角度，共收集了1.1K条人类演示轨迹。

使用方法

用户可通过DexJoCo提供的工具包，利用MuJoCo仿真环境进行任务构建与数据重放。收集的轨迹数据支持转换为LeRobot或DP Zarr等主流格式，便于策略训练。训练后的策略通过客户端-服务器架构部署于场景中，异步推理机制确保实时性。域随机化功能可在不额外采集数据的情况下，通过重放同一轨迹并修改渲染参数实现视觉增强，适用于鲁棒性评估与算法对比研究。

背景与挑战

背景概述

灵巧手操作是迈向类人机器人能力的关键环节，然而现有基准测试多聚焦于平行夹爪或仅考虑手部操作，未能充分揭示灵巧手在精细接触与功能交互中的独特优势。在此背景下，中国科学院自动化研究所、上海交通大学、穆罕默德·本·扎耶德人工智能大学、北京大学、香港中文大学等多所顶尖机构于2026年联合推出了DexJoCo基准与工具包。该工作围绕核心研究问题展开：如何构建能够系统评估灵巧手在工具使用、双手协调、长时序执行与推理推理能力的标准化测试平台。DexJoCo通过设计11项功能导向的任务，并配套低成本的演示数据采集系统，收集了1.1K条人类演示轨迹，为灵巧手模仿学习研究提供了重要支撑，推动了该领域从简单抓放走向复杂任务评估的范式转变。

当前挑战

DexJoCo面临的挑战体现在多个层面。在领域问题层面，灵巧手操作的独特之处在于需要精细的指尖协调与丰富的接触交互，现有平行夹爪系统难以胜任此类任务，而现有灵巧手基准多采用强化学习生成轨迹，其行为模式与人类自然操控存在显著差异。在构建过程中，数据采集是一大瓶颈：灵巧手的高自由度导致传统运动规划难以生成自然轨迹，而基于视觉的方法易受遮挡困扰，高昂的动捕手套设备又限制了可及性。DexJoCo通过设计基于Rokoko手套与Vive追踪器组合的低成本遥操作系统，并开发GeoRT重定向算法，在保证精度的同时大幅降低了使用门槛。此外，现有VLA模型的动作头多为32维，难以适配灵巧手的高维动作空间，且在语言泛化实验中暴露出严重的模式塌陷问题，提示当前策略在视觉提示下的鲁棒性与泛化能力仍有显著不足。

常用场景

经典使用场景

DexJoCo作为面向灵巧操作的基准测试平台，其经典使用场景聚焦于评估灵巧手在复杂物体交互中的独特能力。该数据集涵盖工具使用、双手协调、长时序执行与推理四类功能导向任务，能够系统性地衡量机器人灵巧操作策略在不同维度上的性能表现。研究人员通过在该平台上部署ACT、扩散策略、π0.5及GR00T N1.5等现代模仿学习模型，在统一的环境配置下比较它们完成如钉钉子、折叠眼镜、执行汉诺塔任务等11个标准化子任务的成功率，从而揭示不同架构策略在处理精细手指协调与铰接物体互动时的优劣差异。

解决学术问题

DexJoCo显著解决了当前灵巧操作研究领域缺乏标准化评估框架的学术困境。传统基准要么侧重于强化学习环境下的手内操作任务，功能多样性有限；要么依赖平行夹爪设计，无法凸显灵巧手的独特优势。该数据集通过设计功能导向的任务体系，使研究者能够系统剖析模仿学习策略在高维动作空间中的局限性，例如视觉主导策略在接触密集操作中因缺乏触觉模态而产生的细粒度动作失败、多任务训练带来的性能退化，以及预训练大模型在语言泛化上的统计偏差。这些发现为未来灵巧操作中的模态融合、结构设计与学习方法提供了明确的改进方向。

实际应用

在实际应用层面，DexJoCo为灵巧机器人在家庭服务、精密装配和医疗辅助等场景中的部署提供了关键的技术验证平台。数据集模拟了浇水、使用钳子夹取物品、双手配合进行微波炉操作等贴近日常生活的任务，这些场景要求机器人具备精细的手指协调能力和对铰接物体的交互理解。通过在仿真环境中引入表位姿、光照条件与桌面纹理的随机化，该数据集能够评估策略在不同环境变化下的鲁棒性，为实体机器人从仿真到真实世界的零样本迁移提供性能预测，从而降低真实硬件调试成本并加快灵巧操作系统的产业化落地。

数据集最近研究