TACO
收藏arXiv2024-03-26 更新2024-07-30 收录
下载链接:
https://taco2024.github.io
下载链接
链接失效反馈官方服务:
资源简介:
TACO是一个包含2.5K运动序列的大规模双手手-物体交互数据集,涵盖了日常人类活动中各种工具-动作-物体组合。该数据集提供第三人称和自我中心视角、精确的手-物体3D网格以及动作标签。
TACO is a large-scale two-handed hand-object interaction dataset containing 2.5K motion sequences, which covers a wide variety of tool-action-object triplets from daily human activities. This dataset provides both third-person and egocentric viewpoints, precise hand-object 3D meshes, and action labels.
创建时间:
2024-01-16
搜集汇总
数据集介绍

构建方式
在日常生活场景中,双手协调操作工具与目标物体是人类行为的常见模式。为系统研究这种多物体协作行为,TACO数据集构建了一套全自动数据采集流水线,融合多视角RGB相机与光学动作捕捉系统。通过12台同步工业相机与6台红外动捕相机,同时采集第三视角与第一视角视频,并借助标记点追踪与手部关键点定位技术,精确恢复手部与物体的三维网格模型、二维分割掩码及行为三元组标注,最终形成涵盖2.5K运动序列与5.2M视频帧的大规模数据集。
特点
TACO数据集的核心特点在于其丰富的泛化性支持。数据集囊括20个物体类别、196个精细实例、15类日常动作及131种工具-动作-目标物体三元组,覆盖多样化的物体几何形状与交互行为。通过设计不同重叠程度的三元组划分,自然定义运动轨迹间的语义距离,从而支持对未见物体几何与新型交互组合的泛化研究。此外,数据集提供12个第三视角与1个第一视角的高分辨率视频,以及精确的手部-物体网格、分割掩码和动作标签,为动作识别、运动预测与协同抓取合成等任务提供全面基准。
使用方法
TACO数据集专为可泛化的双手手物交互研究设计,支持三大基准任务。在组合动作识别中,利用第一视角RGB视频帧与手物边界框,识别未见物体组合下的动作标签。在可泛化手物运动预测中,基于给定连续帧的手物点云与姿态,预测未来帧的双手与物体运动。在协同抓取合成中,依据工具与目标物体的网格及另一只手的姿态,生成符合交互意图的抓取姿态。数据集提供标准化的训练/测试划分,包含四种泛化难度的测试子集,便于系统评估模型在不同泛化层面的表现。
背景与挑战
背景概述
在日常生活与工业应用中,双手协调操作物体是人类智能行为的核心体现,例如一手持锅一手翻炒或一手握刀一手扶物。然而,现有的手-物交互数据集大多聚焦于单手握持或操作单一物体的场景,难以捕捉双手与多个物体间复杂的时空耦合关系。为填补这一空白,清华大学、上海人工智能实验室等机构的研究人员于2024年发布了名为TACO的大规模双手工具-动作-对象操作数据集。该数据集包含2.5K段运动序列与5.2M帧视频,覆盖20个物体类别、196个精细三维模型、15种日常动作及131种工具-动作-对象三元组,并配备了多视角与第一人称RGB-D影像、精确的手-物三维网格及动作标签,为理解双手协作行为提供了前所未有的数据基础,对虚拟现实、人机交互及灵巧操作等领域的泛化研究具有重要推动作用。
当前挑战
TACO数据集所面临的挑战主要体现在两个层面。在领域问题层面,现有方法多局限于单手握持或单一物体操作,难以处理双手与双物体间复杂的时空协调与功能耦合,尤其是在面对未见过的物体几何形状或新颖的工具-动作-对象三元组时,模型的泛化能力严重不足。在构建过程层面,同时捕捉两只动态手与两个运动物体之间的交互行为极具技术难度,需要融合多视角RGB视频与光学动作捕捉系统,并解决严重的遮挡问题;此外,为获得高质量的手-物三维网格与分割标注,研究团队设计了一套全自动数据采集流水线,但物体表面标记物的存在会破坏物体外观的真实性,需借助生成模型进行修补,这一过程难以完美恢复原始外观,且当前数据集尚未涵盖关节物体与多样化的场景背景,限制了其对更广泛操作行为的理解与泛化研究。
常用场景
经典使用场景
在日常生活与工业操作中,双手协调操控工具与目标物体是人类灵巧操作的核心能力。TACO数据集通过采集大规模真实场景下的双手操作视频,涵盖131种工具-动作-目标三元组,为研究双手交互行为提供了丰富的视觉与运动信息。其经典使用场景聚焦于从多视角RGB视频中识别复杂操作动作、预测手与物体的未来运动轨迹,以及生成符合物理规律的双手抓取姿态,尤其强调在未见物体几何或新颖交互组合下的泛化能力。
解决学术问题
TACO数据集解决了现有手物交互研究集中于单手操作、缺乏双手协调与多物体合作数据支持的瓶颈问题。它推动了组合动作识别在未知工具或动作组合下的泛化研究,揭示了现有模型在交互三元组变化时性能显著下降的挑战。同时,它为可泛化的手物运动预测提供了基准,验证了生成式模型在快速复杂操作中的局限性。此外,该数据集促进了双手协同抓取合成的发展,强调了感知交互环境对生成物理合理抓取的重要性。
衍生相关工作
基于TACO数据集,研究者已衍生出多项经典工作,包括组合动作识别方法CACNF利用边界框解耦动作与物体几何以增强泛化,以及运动预测模型CAHMP通过上下文感知生成手物轨迹。在抓取合成领域,HALO-VAE被改进以融入交互环境条件,显著提升了双手协同抓取的物理合理性。这些工作共同推动了从单手到双手、从静态到动态、从已知到未知的通用手物交互理解与生成研究范式的发展。
以上内容由遇见数据集搜集并总结生成



