RH20T-P
收藏arXiv2024-03-29 更新2024-06-21 收录
下载链接:
https://sites.google.com/view/rh20t-primitive/main
下载链接
链接失效反馈官方服务:
资源简介:
RH20T-P是由上海人工智能实验室创建的一个原始级别的机器人数据集,包含约33000个视频片段,覆盖44种多样且复杂的机器人任务。每个视频片段都根据精心设计的原始技能进行手动标注,旨在促进可组合泛化代理的未来发展。数据集通过分解任务为原始技能,使机器人能够以组合方式泛化到新任务,解决传统算法在处理复杂任务时的局限性。RH20T-P数据集的应用领域包括机器人学习和高级决策制定,特别是在需要复杂视觉推理和长视野规划的任务中。
RH20T-P is a raw-level robotic dataset created by the Shanghai AI Laboratory. It contains approximately 33,000 video clips covering 44 diverse and complex robotic tasks. Each video clip is manually annotated based on meticulously designed primitive skills, aiming to facilitate the future development of compositional generalization agents. By decomposing tasks into primitive skills, the dataset enables robots to generalize to new tasks in a compositional manner, addressing the limitations of traditional algorithms when handling complex tasks. The RH20T-P dataset finds applications in robotic learning and advanced decision-making, particularly in tasks that require complex visual reasoning and long-horizon planning.
提供机构:
上海人工智能实验室
创建时间:
2024-03-29
搜集汇总
数据集介绍

构建方式
RH20T-P数据集的构建基于RH20T数据集,这是一个包含多种真实世界机器人操作技能的数据库。RH20T-P数据集包含了大约33000个视频剪辑,涵盖了44种多样和复杂的机器人任务。每个剪辑都根据一套精心设计的原始技能进行了人工标注,以便未来开发可组合的泛化代理。RH20T-P数据集的构建过程包括对RH20T中适合可组合泛化代理的任务进行采样,并定义了一套可组合和可扩展的原始技能。
特点
RH20T-P数据集的特点包括多样性、复杂性和原始技能的精细标注。该数据集涵盖了多种类型的任务,包括特殊轨迹、使用工具、复杂的视觉推理和长期规划等。每个视频剪辑都被标注为一系列原始技能,这些技能是从机器人臂的运动和夹持器的状态变化角度进行定义的。原始技能分为基于运动的技能和基于夹持器的技能,每个技能都包含特定的空间信息,以便于进行运动规划。此外,RH20T-P数据集还提供了丰富的空间信息,有助于机器人代理在执行任务时进行精确的空间感知。
使用方法
RH20T-P数据集的使用方法包括将其用于训练可组合泛化代理(CGAs)。为了验证RH20T-P数据集的有效性,研究人员构建了一个名为RA-P的潜在且可扩展的机器人代理。RA-P配备了两个专门的规划器,分别用于任务分解和运动规划。通过可组合泛化,RA-P能够适应新颖的物理技能。在使用RH20T-P数据集进行训练时,研究人员使用了LLaVA作为任务规划器,并使用Deformable DETR作为运动规划器。RA-P在执行任务时,会根据当前状态和观察结果,使用LLaVA进行决策,然后使用Deformable DETR预测运动轨迹,最后由低级控制器执行动作序列。
背景与挑战
背景概述
机器人学习领域的研究目标是开发一个能够执行训练分布内和全新环境中未见技能的全面且可通用的机器人系统。随着大型语言模型(LLMs)在理解和解释指令方面的进步,通过将任务分解为低级计划,可以降低任务的复杂性,从而有可能以可组合的方式对新型机器人任务进行泛化。然而,由于缺乏低级真实世界的机器人数据集,社区尚未充分准备好可组合的泛化代理。本文提出了一种名为RH20T-P的低级机器人数据集,包含约33000个视频片段,涵盖44个多样且复杂的机器人任务。每个片段都根据精心设计的低级技能集进行了人工标注,以促进可组合泛化代理的未来发展。为了验证RH20T-P的有效性,我们还构建了一个基于RH20T-P的潜在且可扩展的代理,称为RA-P。RA-P配备了两个专门从事任务分解和运动规划的规划器,可以通过可组合泛化来适应新型物理技能。本文还讨论了RH20T-P数据集的构建背景、主要研究人员、核心研究问题和影响力等。
当前挑战
尽管RH20T-P数据集在促进可组合泛化代理的发展方面具有巨大潜力,但仍面临一些挑战。首先,现有的可组合泛化代理(CGAs)倾向于使用更大的私有模型,如GPT-4V,通过上下文学习将任务规范分解为低级技能。这种对私有VLMs的依赖导致缺乏透明度和灵活性。其次,机器人任务在空间感知方面的广泛需求,特别是定位特定背景位置的能力,无法与传统定位任务中的前景感知先验相匹配。例如,在从容器中检索物体的任务中,定位容器外的背景位置至关重要。为了积累机器人臂每个动作的背景位置的空间知识,需要基于低级技能对任务进行分段的数据集。没有这样的数据集,CGAs无法为每个动作提供精确的空间信息,并且被迫将空间感知委托给低级控制器,这可能最终增加这些控制器的难度,偏离了CGAs的初衷。
常用场景
经典使用场景
RH20T-P数据集包含约33000个视频片段,涵盖了44种多样且复杂的机器人任务。每个片段都根据一套精心设计的原始技能进行了人工标注,从而为可组合泛化智能体的未来发展奠定了基础。RH20T-P数据集主要用于机器学习和机器人领域,特别是可组合泛化智能体(CGA)的研究。CGA的目标是在新的环境中执行未见的技能,并将已见的技能进行分解,从而提高机器人的泛化能力。RH20T-P数据集通过提供细粒度的原始技能和空间信息,使得CGA能够在新的环境中执行复杂的机器人任务,从而提高机器人的智能水平。
实际应用
RH20T-P数据集的实际应用场景包括机器人制造、智能家居、医疗保健等领域。例如,在机器人制造中,RH20T-P数据集可以帮助机器人执行复杂的装配任务;在智能家居中,RH20T-P数据集可以帮助机器人执行清洁、烹饪等任务;在医疗保健中,RH20T-P数据集可以帮助机器人执行手术、护理等任务。RH20T-P数据集的应用将极大地提高机器人的智能化水平,从而为人类带来更多便利。
衍生相关工作
RH20T-P数据集衍生了许多相关的研究工作。例如,基于RH20T-P数据集,研究人员开发了可组合泛化智能体(CGA)RA-P,该智能体能够通过可组合泛化,将未见的物理技能分解成原始技能,并进行精确的空间定位。此外,研究人员还基于RH20T-P数据集,开发了用于机器人任务分解和运动规划的工具和方法。这些相关的研究工作将进一步推动机器人学习和可组合泛化智能体的发展,并为机器人领域的应用提供新的思路和方法。
以上内容由遇见数据集搜集并总结生成



