UniHand

Name: UniHand
Creator: 智在⽆界 BeingBeyond
Published: 2025-07-21 21:19:09
License: 暂无描述

arXiv2025-07-21 更新2025-07-23 收录

下载链接：

https://beingbeyond.github.io/Being-H0

下载链接

链接失效反馈

官方服务：

资源简介：

UniHand是一个大规模的数据集，包含超过1.5亿个基于运动的指令跟随样本，涵盖了多种操纵场景。该数据集是通过一个可扩展的数据流程整合了运动捕捉、VR录制和仅RGB视频等多种异构来源的数据而创建的。这些数据经过精心策划，以支持Being-H0模型的训练，该模型是一个基于大规模人类视频训练的高级且样本高效的灵巧视觉-语言-动作模型。UniHand旨在弥合现有视觉-语言-动作模型在复杂操作任务和真实场景中的泛化能力不足的问题，并提供了丰富的灵巧手运动数据，以支持物理指令调整的训练范式。

UniHand is a large-scale dataset containing over 150 million motion-based instruction-following samples spanning diverse manipulation scenarios. It is constructed via a scalable data pipeline that integrates heterogeneous data sources including motion capture, VR recordings, and RGB-only videos. The dataset has been meticulously curated to support the training of the Being-H0 model, an advanced and sample-efficient dexterous vision-language-action model trained on large-scale human video corpora. UniHand aims to bridge the gap in generalization capability of existing vision-language-action models for complex manipulation tasks and real-world scenarios, and provides abundant dexterous hand motion data to enable the training paradigm of physical instruction tuning.

提供机构：

智在⽆界 BeingBeyond

创建时间：

2025-07-21

原始信息汇总

数据集概述：Being-H0

基本信息

名称: Being-H0
类型: 视觉-语言-动作预训练模型
开发团队: 北京大学、中国人民大学、BeingBeyond
论文: arXiv:2507.15597
核心贡献: 首个通过显式手部运动建模从大规模人类视频中预训练的多模态模型

关键特性

训练数据: 基于UniHand-2.5M数据集（250万样本）
创新方法:
- 物理指令调优（Physical Instruction Tuning）
- 跨模态多头注意力机制（视觉/文本/运动/动作）
输出能力:
- 预训练阶段：自回归生成手部运动/平移任务
- 下游任务：通过可学习查询预测动作块

应用场景

机器人演示任务:
- 展开衣物（多指协调）
- 关闭杯盖（高精度控制）
- 工具箱操作（铰接物体交互）
- 抓取放置（自然语言指令）
- 杂乱场景抓取（鲁棒感知）
- 倒水动作（流畅控制）

性能表现

扩展性: 模型性能随数据和模型规模提升而线性增长
优势领域: 在灵巧操作任务中显著提高成功率并减少示教需求

数据构成

UniHand-2.5M数据集特征:
- 多源数据整合（人类视频+机器人操作数据）
- 覆盖不同场景/任务类型
- 包含多种数据类型样本

引用格式

bibtex @article{beingbeyond2025beingh0, title={Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos}, author={Luo, Hao and Feng, Yicheng and Zhang, Wanpeng and Zheng, Sipeng and Wang, Ye and Yuan, Haoqi and Liu, Jiazheng and Xu, Chaoyi and Jin, Qin and Lu, Zongqing}, journal={arXiv preprint arXiv:2507.15597}, year={2025} }

搜集汇总

数据集介绍

构建方式

UniHand数据集的构建采用了多源异构数据整合策略，系统性地融合了动作捕捉系统、虚拟现实设备采集和RGB视频伪标注三类数据源。研究团队开发了基于MANO参数的手部姿态标准化流程，通过梯度优化和HaMer框架实现了不同标注形式到统一手部运动语义的映射。针对数据视角分布不均衡问题，创新性地提出了弱透视投影对齐和视角不变运动分布平衡方法，通过深度缩放和平面旋转等几何变换，在保持物理空间一致性的前提下增强了数据多样性。数据集最终包含来自11个基准的444K任务轨迹，覆盖130M视频帧和1155小时时长，并通过分层标注框架生成了165M高质量视觉-语言-动作三元组。

特点

UniHand作为当前最大规模的自我中心视角手部运动数据集，其核心特点体现在三个方面：多模态对齐性方面，通过分层任务描述标注框架实现了精细的视觉场景-语言指令-量化动作的语义 grounding；时空覆盖度方面，包含从1秒到10秒不同粒度的运动序列，支持短时操作与长时交互建模；任务多样性方面，涵盖抓取放置、工具使用、可变形物体操作等150余种日常操作场景。特别值得注意的是其创新的物理空间对齐特性，通过弱透视投影统一了不同摄像系统的坐标系，使模型能够从2D视觉输入建立精确的3D空间映射。

使用方法

该数据集支持三种典型使用范式：在指令性运动生成任务中，模型根据静态场景图像和文本指令生成绝对3D坐标系下的手部运动序列；在上下文运动预测任务中，结合历史运动片段和后续指令预测连贯动作；在运动翻译任务中，将运动序列转化为自然语言描述。研究团队推荐采用分阶段训练策略：首先使用运动tokenizer将连续MANO参数离散化为128 token/秒的序列，随后在InternVL3架构上进行多模态联合训练。对于下游机器人控制，可通过MLP投影将人类手部运动先验迁移至机械手，具体实现时建议采用软格式化解码模式以平衡生成灵活性与运动合理性。

背景与挑战

背景概述

UniHand数据集由北京大学和中国人民大学的研究团队于2025年推出，旨在解决机器人灵巧操作领域的数据瓶颈问题。该数据集聚焦于从大规模人类视频中学习灵巧操作技能，通过物理指令调优的新范式，构建了首个基于显式运动建模的灵巧视觉-语言-动作模型（VLA）。其核心研究问题是如何利用人类手部作为'基础操作器'，将网络视频中丰富的灵巧性迁移至机器人操作。该数据集整合了动作捕捉、VR记录和RGB视频等异构数据源，包含超过1.5亿个运动指令样本，覆盖1000多小时视频数据，显著推动了具身智能领域的发展。

当前挑战

UniHand面临四大核心挑战：1) 数据异构性挑战：整合不同摄像机系统、坐标系和记录条件的视频数据；2) 手部量化挑战：将连续手部运动离散化为语言兼容表示而不损失毫米级精度；3) 跨模态推理挑战：建立视觉观察、语言指令与精确手指运动间的复杂依赖关系；4) 机器人控制迁移挑战：克服人手机械差异实现技能迁移。在构建过程中，研究团队还需解决弱视角对齐、运动分布平衡等关键技术难题，确保不同数据源在物理空间中的一致性表征。

常用场景

经典使用场景

UniHand数据集在机器人灵巧操作领域具有广泛的应用场景，特别是在基于视觉-语言-动作（VLA）模型的预训练和微调中。该数据集通过整合大规模的人类手部视频数据，为模型提供了丰富的真实世界操作示例。其经典使用场景包括从人类手部动作中学习灵巧操作技能，并将这些技能迁移到机器人手部控制中。数据集中的多模态数据（包括运动捕捉、VR录制和RGB视频）为模型提供了多样化的训练样本，使其能够在不同环境和任务中表现出色。

解决学术问题

UniHand数据集解决了机器人灵巧操作领域中的多个关键学术问题。首先，它通过大规模的人类手部视频数据缓解了真实机器人数据稀缺的问题，填补了合成数据与现实数据之间的鸿沟。其次，数据集中的物理指令调优方法（Physical Instruction Tuning）有效解决了预训练与下游任务之间的数据不匹配问题。此外，数据集中的部分级运动标记化方法（Part-Level Motion Tokenization）实现了毫米级的重建精度，为精细手部动作建模提供了可靠的技术支持。这些创新显著提升了模型在复杂操作任务中的泛化能力和鲁棒性。

衍生相关工作

UniHand数据集衍生了一系列相关研究工作，推动了机器人灵巧操作领域的发展。基于该数据集提出的物理指令调优范式启发了后续关于人类-机器人动作迁移的研究。部分级运动标记化方法为动作表示学习提供了新的思路，被应用于其他动作生成任务中。数据集中的多模态整合方法也为视觉-语言-动作模型的架构设计提供了参考。此外，该工作还促进了关于大规模人类视频数据在机器人学习中应用的研究，为后续数据收集和标注工作树立了标杆。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集