OAKINK2
收藏arXiv2024-03-28 更新2024-06-21 收录
下载链接:
https://oakink.net/v2
下载链接
链接失效反馈官方服务:
资源简介:
OAKINK2数据集专注于双手机器人操作任务,用于复杂日常活动的完成。数据集包含627个真实世界双手机器人操作序列,其中264个用于复杂任务。数据集提供了人类操作过程的自我中心和异我中心视频,以及相应的3D姿态标注和任务规范。OAKINK2通过三个抽象层次组织操作任务:功能性、原始任务和复杂任务,旨在构建复杂任务的结构化表示。数据集支持交互重建和运动合成等应用,基于3层抽象,探索了复杂任务完成(CTC)的任务导向框架。
The OAKINK2 dataset focuses on dual-arm robotic manipulation tasks for accomplishing complex daily activities. It comprises 627 real-world dual-arm robotic manipulation sequences, with 264 of them dedicated to complex tasks. The dataset provides egocentric and allocentric videos capturing human manipulation processes, alongside corresponding 3D pose annotations and task specifications. OAKINK2 organizes manipulation tasks across three hierarchical abstraction levels: functional, primitive, and complex, aiming to construct structured representations for complex tasks. This dataset supports applications such as interactive reconstruction and motion synthesis, and explores a task-oriented framework for Complex Task Completion (CTC) based on its three-level abstraction structure.
提供机构:
上海交通大学
创建时间:
2024-03-28
搜集汇总
数据集介绍

构建方式
在复杂任务完成领域,OAKINK2数据集的构建采用了系统化的三层抽象框架。首先,研究者通过分析物体及其部件的功能属性,定义了物体可供性(Affordance),例如刀片的“切割”功能。随后,针对每个可供性设计最小交互单元,即原始任务(Primitive Task),确保交互过程完整实现物体功能。最后,将多个原始任务按依赖关系组合成复杂任务(Complex Task),形成有向无环图结构。数据采集通过多视角RGB相机和光学动作捕捉系统同步进行,涵盖四个日常场景,共记录627段双手操作序列,包含401万帧图像及精确的人体、手部和物体三维姿态标注。
特点
OAKINK2数据集的核心特点在于其以物体为中心的三层抽象结构,将复杂操作任务分解为可供性、原始任务和复杂任务,提供了结构化理解人类操作行为的新范式。数据集包含丰富的多模态数据,包括第一人称和第三人称视角视频、三维姿态标注以及任务规范描述。其规模较大,涵盖75个物体、39种可供性和60类原始任务,支持从静态交互到长时程多目标操作的广泛研究。此外,数据集还提供了专家评论和任务执行注释,为理解操作逻辑和生成自然语言描述提供了宝贵资源。
使用方法
OAKINK2数据集支持多种研究应用,包括手部网格重建、任务感知运动生成和复杂任务完成。在手部网格重建任务中,可利用单视角或多视角图像输入,结合数据集提供的三维姿态真值进行模型训练与评估。对于任务感知运动生成,研究者可以基于文本任务描述和物体运动轨迹,生成符合物理约束的手部运动序列。在复杂任务完成应用中,可利用大型语言模型将文本任务描述分解为原始任务序列,并通过运动生成模型实现每一步的操作。数据集的子集划分(如OAKINK2-H-SV、OAKINK2-HO)便于针对特定任务进行定制化使用。
背景与挑战
背景概述
在机器人学与计算机视觉领域,理解人类如何通过双手操作物体完成复杂任务一直是一个核心挑战。OAKINK2数据集由上海交通大学的研究团队于2024年提出,旨在系统化地记录和分析双手物体操作行为。该数据集构建了三个层次的抽象表示——功能属性、基本任务和复杂任务,以此解码复杂操作任务,将其视为一系列物体功能属性实现的过程。OAKINK2不仅提供了多视角视频流,还包含了人体、双手及物体的精确三维姿态标注,为交互重建、运动合成等应用提供了丰富的数据支持,显著推动了具身智能与任务导向运动规划的研究进展。
当前挑战
OAKINK2数据集致力于解决复杂双手物体操作任务的分解与执行问题,其核心挑战在于如何将长时程、多目标的复杂任务有效分解为可执行的基本单元,并确保这些单元之间的依赖关系得到准确建模。在构建过程中,研究团队面临多重挑战:首先,数据采集需同步多视角摄像头与光学动作捕捉系统,确保高精度三维标注的可靠性;其次,设计并标注基本任务与复杂任务的层次结构,要求对物体功能属性和人类操作意图进行细致分析;此外,大规模真实世界数据的清洗与标注工作极为繁重,需克服遮挡、标记点丢失等技术难题,以保证数据集的物理合理性与一致性。
常用场景
经典使用场景
在机器人学与计算机视觉领域,OAKINK2数据集为双手物体操作任务提供了结构化研究框架。该数据集通过三层抽象体系——功能属性、基本任务与复杂任务,系统化地编码了日常活动中的双手交互序列。研究者可基于其多视角视频流与精确的3D姿态标注,深入探索任务导向的运动生成、交互重建及动作合成等核心问题,为理解人类在复杂场景下的操作逻辑奠定了数据基础。
实际应用
该数据集在服务机器人、虚拟现实与智能辅助系统等领域展现出广泛的应用潜力。基于其标注的双手操作序列,可训练机器人执行如备餐、整理等日常复杂任务;在虚拟现实中,能够生成符合物理约束的逼真交互动画;其任务分解框架还可用于开发智能导引系统,协助用户完成多步骤的操作流程,提升人机协作的流畅性与安全性。
衍生相关工作
以OAKINK2为基础,研究者提出了面向复杂任务完成的CTC框架,该框架创新性地结合大语言模型进行任务分解,并利用扩散模型生成基本任务对应的双手运动。相关工作进一步扩展了其在手部网格重建、任务感知运动生成等方向的基准测试,并启发了如FAVOR、GOAL等研究,推动了从文本描述到操作动作的端到端生成方法的发展。
以上内容由遇见数据集搜集并总结生成



