five

UniDex-Dataset

收藏
arXiv2026-03-24 更新2026-03-25 收录
下载链接:
https://unidex-ai.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
UniDex-Dataset是由清华大学与上海启智研究院联合构建的大规模机器人操作数据集,源自人类第一视角视频的跨模态转换。该数据集包含900万帧配对的图像-点云-动作数据,涵盖8种灵巧手平台(6-24自由度)的5万条轨迹,覆盖日常工具使用等多样化任务。通过人机协同的指尖轨迹重定向和视觉对齐技术,将人类视频转化为机器人可执行轨迹,显著缩小了人机域差距。作为首个跨多形态灵巧手的预训练数据集,其核心价值在于为通用灵巧操作基础模型提供规模化数据支持,并推动跨硬件技能迁移研究。

The UniDex-Dataset is a large-scale robotic manipulation dataset jointly constructed by Tsinghua University and Shanghai Qi-Zhi Research Institute, derived from cross-modal conversion of human first-person perspective videos. This dataset contains 9 million paired image-point cloud-action frames, 50,000 trajectories across 8 dexterous hand platforms with degrees of freedom ranging from 6 to 24, covering diverse tasks such as daily tool utilization. By leveraging human-robot collaborative fingertip trajectory redirection and visual alignment technologies, it transforms human videos into robot-executable trajectories, significantly narrowing the cross-domain gap between humans and robots. As the first pre-training dataset spanning multiple dexterous hand morphologies, its core value lies in providing large-scale data support for general dexterous manipulation foundation models, and promoting research on cross-hardware skill transfer.
提供机构:
清华大学; 上海启智研究院; 中山大学; 北卡罗来纳大学教堂山分校
创建时间:
2026-03-24
原始信息汇总

UniDex: 机器人灵巧手通用控制基础套件

数据集概述

UniDex-Dataset 是一个以机器人为中心的大规模灵巧手操作数据集,旨在将人类视频数据转化为机器人可执行轨迹,用于大规模预训练。

关键信息

  • 数据规模:包含超过 50,000 条轨迹,涵盖八种不同的灵巧手,提供 900 万对图像-点云-动作帧。
  • 数据来源:源自以自我为中心的人类操作视频。
  • 核心处理技术:采用人在回路的重定向方法,通过交互式调整将人类指尖轨迹与机器人手对齐,确保生成的机器人执行轨迹保持物理上合理的手-物体接触。
  • 主要目的:将人类灵巧操作视频转化为适用于机器人执行的轨迹。

数据集组成部分

  • 人类数据:原始的人类操作视频数据。
  • 机器人数据:通过重定向和视觉对齐流程转化得到的机器人可执行轨迹。

相关组件

  • FAAS(功能执行器对齐动作空间):将具有相同功能角色的执行器映射到共享坐标,实现不同运动学和自由度的灵巧手之间的策略迁移。
  • UniDex-VLA:一种3D视觉-语言-动作策略,接收点云观测、语言指令和本体感觉,并在 FAAS 中预测灵巧的动作块。
  • UniDex-Cap:一个便携式人类数据采集装置,用于记录同步的 RGB-D 流和手部姿态,并通过相同的转化流程将其转换为机器人可执行轨迹,可用于人-机器人数据协同训练

应用与评估

  • 工具使用任务:在真实世界长视野任务中评估灵巧操作,包括制作咖啡、扫地、浇花、剪开袋子和使用鼠标。
  • 零样本跨手迁移:通过 FAAS 和多样化的预训练,将策略迁移到具有不同运动学和自由度的灵巧手上。
  • 物体泛化:策略能够泛化到未见过的、具有不同颜色、大小和几何形状的物体上。
搜集汇总
数据集介绍
main_image_url
构建方式
在灵巧操作领域,数据稀缺是制约模型泛化能力的关键瓶颈。UniDex-Dataset的构建创新性地利用了第一人称视角的人类视频数据,通过一套严谨的人机转换流程,将人类操作轨迹转化为机器人可执行的指令。该流程首先从开源的人类RGB-D操作视频中提取轨迹片段,并辅以语言指令标注。针对人手机器手之间的运动学与视觉差异,研究团队设计了一种人机协同的重定向方法:通过基于指尖轨迹的逆向运动学,并结合交互式调整,确保机器人指尖轨迹与人类轨迹对齐,同时维持合理的手-物体接触。在视觉层面,通过掩码移除人类手部点云,并将重定向后的机器人手部模型嵌入场景,从而生成包含900万配对图像-点云-动作帧、超过5万条轨迹的大规模机器人中心数据集,覆盖了从6到24个自由度的八种不同灵巧手平台。
使用方法
UniDex-Dataset主要服务于灵巧手视觉-语言-动作基础模型的大规模预训练。研究人员可利用该数据集,结合其配套的统一动作空间——功能-执行器对齐空间,训练能够理解3D点云输入、遵循语言指令并输出跨手型通用动作的VLA策略。具体而言,模型以单视角彩色点云、语言指令和本体感知状态作为观测,预测在FAAS空间中表示的未来多步动作。在预训练阶段,模型通过条件流匹配等目标学习丰富的操作先验。此后,仅需少量针对特定任务的真实机器人演示数据进行微调,即可使模型适应复杂的工具使用等长周期操作任务。该数据集的使用有效缓解了机器人演示数据收集的成本压力,并显著提升了策略在空间、物体及零样本跨手型泛化方面的能力。
背景与挑战
背景概述
在机器人灵巧操作领域,数据稀缺与异构硬件适配是长期存在的核心瓶颈。为应对这一挑战,清华大学与上海期智研究院等机构的研究团队于2026年提出了UniDex-Dataset。该数据集旨在构建一个面向通用灵巧手控制的机器人基础数据集,其核心研究问题是通过从人类自我中心视频中转化数据,以低成本、大规模的方式获取机器人可执行的灵巧操作轨迹,从而弥合人类与机器人之间的运动学和视觉鸿沟。UniDex-Dataset整合了超过五万条轨迹和九百万帧数据,覆盖八种不同自由度的灵巧手平台,为后续训练通用视觉-语言-动作模型提供了关键的数据基础,显著推动了跨硬件平台技能迁移与通用操作能力的研究进程。
当前挑战
UniDex-Dataset致力于解决机器人灵巧操作领域的核心挑战,即如何实现通用、高自由度的工具使用与物体操控。其构建过程面临两大主要挑战:首先,在领域问题层面,灵巧手控制具有高维度、异构形态以及精细接触需求等特性,使得从平行夹爪模型直接迁移的方法失效,亟需设计统一且功能对齐的动作表示。其次,在数据集构建层面,从人类视频到机器人轨迹的转化存在显著的领域差异,包括人类与机器人手之间的运动学结构不匹配,以及第一人称视角下视觉外观的差异,这要求开发精准的指尖轨迹重定向算法和视觉对齐流程,并通过人机协同的交互式校准来确保接触的物理合理性。
常用场景
经典使用场景
在灵巧机器人操控领域,UniDex-Dataset 作为大规模预训练数据集,其经典应用场景在于为异构多指灵巧手构建通用视觉-语言-动作模型提供数据基础。该数据集通过从人类第一视角视频中转化出机器人可执行的轨迹,涵盖了从简单抓取到复杂工具使用在内的多样化日常操作任务,为模型学习精细的手指协调与物体交互模式提供了丰富的监督信号。
解决学术问题
该数据集有效应对了灵巧操控研究中真实机器人示教数据稀缺、异构手形态差异大以及控制维度高等核心挑战。通过提供跨八种不同灵巧手平台、超过五万条轨迹的机器人中心化数据,它显著缓解了数据收集的瓶颈,并借助功能-执行器对齐空间的设计,为跨手型技能迁移提供了统一的动作表征,从而推动了通用灵巧操控基础模型的发展。
实际应用
在实际机器人系统中,UniDex-Dataset 支撑的预训练模型能够高效地适应真实的工具使用任务,如使用剪刀裁剪、操作喷壶浇花等。其衍生的 UniDex-Cap 系统进一步实现了人机数据协同训练,允许通过便携设备采集人类演示并转化为机器人轨迹,大幅降低了后续任务微调对昂贵机器人遥操作数据的依赖,提升了机器人学习复杂灵巧技能的经济性与可扩展性。
数据集最近研究
最新研究方向
在灵巧机器人操控领域,UniDex-Dataset 的推出标志着从人类视频中学习机器人技能的前沿探索。该数据集通过将第一人称视角的人类视频转化为机器人可执行的轨迹,构建了大规模、多形态的灵巧手预训练数据基础。当前研究热点聚焦于利用此类数据驱动视觉-语言-动作模型,实现跨手型零样本泛化与复杂工具使用任务。其核心在于通过功能-执行器对齐空间统一异构灵巧手的控制表示,并结合人类-机器人数据协同训练范式,显著降低对昂贵机器人示教数据的依赖。这一进展为构建通用灵巧操作基础模型提供了可扩展的数据与算法框架,对推动机器人实现类人精细操作能力具有深远意义。
相关研究论文
  • 1
    UniDex: A Robot Foundation Suite for Universal Dexterous Hand Control from Egocentric Human Videos清华大学; 上海启智研究院; 中山大学; 北卡罗来纳大学教堂山分校 · 2026年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作