five

grasp_demo_example

收藏
github2025-03-03 更新2025-03-02 收录
下载链接:
https://github.com/Psi-Robot/DexGraspVLA
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含51个人类演示数据样本,允许用户理解数据的内容和格式,并运行代码以获得训练过程的实践经验。

This dataset contains 51 human demonstration data samples, enabling users to understand the content and format of the data, and run code to gain hands-on experience with the training process.
创建时间:
2025-03-01
原始信息汇总

DexGraspVLA 数据集概述

数据集简介

  • 名称:DexGraspVLA
  • 描述:DexGraspVLA 是一个分层视觉-语言-动作框架,能够在混乱场景中实现灵巧抓取,达到 90% 以上的成功率,适用于成千上万种未见过的物体、光照和背景组合的零样本真实世界环境。它还能完成需要复杂视觉-语言推理的长周期抓取任务。

框架特点

  • 高层规划:使用预训练的视觉-语言模型作为任务规划器。
  • 低层控制:学习基于扩散的策略作为动作控制器。
  • 关键洞察:利用基础模型实现强泛化能力,使用基于扩散的模仿学习获取灵巧动作。

环境设置

  • Python 版本:3.9
  • 依赖库:使用 conda 环境和 pip 安装必要的库。
  • CUDA 版本:12.6

数据集

  • 数据样例:提供包含 51 个人类演示数据样本的小型数据集,用于了解数据和格式,以及运行代码体验训练过程。
  • 数据格式:压缩文件 grasp_demo_example.tar.gz

训练

  • 单 GPU 训练:使用 train.py 脚本和指定配置文件。
  • 多 GPU 训练:使用 accelerate 工具进行配置和启动训练。

视觉化

  • 注意力图生成:训练时可以生成、保存和可视化控制器的注意力图。

规划器代码

  • 基于Qwen2.5-VL-72B-Instruct
  • 接口:支持调用 API 或查询云服务器上的部署模型。

致谢

  • 基于项目:Diffusion Policy、RDT、DiT 和 pi_zero_pytorch。
搜集汇总
数据集介绍
main_image_url
构建方式
DexGraspVLA数据集采用分层视觉-语言-动作框架,以预训练的视觉-语言模型作为高层任务规划器,学习基于扩散的策略作为低层动作控制器。该数据集的构建基于数千种未见过的物体、光照和背景组合的杂乱场景,实现超过90%的灵巧抓取成功率,并能够完成需要复杂视觉-语言推理的长周期抓取任务。
使用方法
使用DexGraspVLA数据集首先需要搭建环境,包括创建conda环境、安装必要的依赖库以及SAM和Cutie工具。数据集提供了一个包含51个人类演示数据样本的小型数据集,用户可以通过这些数据了解数据内容和格式,并运行代码来获得训练过程的实践经验。训练过程中,用户可以根据需要生成、保存和可视化控制器的注意力图,以帮助理解内部模型行为。
背景与挑战
背景概述
DexGraspVLA数据集,旨在构建一个通向通用灵巧抓取的视觉-语言-行动框架。该数据集由Psi-Robot团队创建,其研究背景源于灵巧抓取在杂乱场景下的高成功率需求,特别是在未见过的物体、光照及背景组合下实现超过90%的成功率。此框架采用预训练的视觉-语言模型作为高层任务规划器,并学习基于扩散的策略作为低层行动控制器,其创新之处在于利用基础模型实现强大的泛化能力,并使用基于扩散的模仿学习获取灵巧行动。
当前挑战
该数据集面临的挑战包括:1)在零样本环境下,如何实现灵巧抓取的高成功率;2)如何通过视觉-语言-行动框架完成需要复杂视觉-语言推理的长周期抓取任务;3)构建过程中,如何有效利用预训练模型和扩散策略进行有效的数据泛化和行动控制。此外,还需解决实际部署时环境配置、模型训练及注意力地图的可视化等挑战。
常用场景
经典使用场景
DexGraspVLA数据集构建了一套层次化的视觉-语言-动作框架,该框架在复杂场景下的灵巧抓取任务中达到了90%以上的成功率。其经典使用场景在于,通过预训练的视觉-语言模型作为高层任务规划器,并学习基于扩散的策略作为底层动作控制器,实现对未知环境和物体的零样本(zero-shot)抓取。
解决学术问题
该数据集解决了传统抓取算法在复杂、不可预测环境下的泛化能力不足问题,以及长时序抓取任务中的视觉-语言推理难题。其意义在于,通过利用基础模型实现强大的泛化能力,并采用基于扩散的模仿学习获取灵巧动作,为机器人灵巧操作领域的研究提供了新的视角和方法。
实际应用
DexGraspVLA数据集的实际应用场景广泛,包括但不限于工业自动化、服务机器人、灾难响应等,其中机器人需要在多变的环境中准确识别和抓取物体,提升机器人的操作灵活性和自主性。
数据集最近研究
最新研究方向
DexGraspVLA数据集构建了一种层次化的视觉-语言-动作框架,实现了在复杂场景下的灵巧抓取,其成功率达到90%以上。该框架采用预训练的视觉-语言模型作为高层任务规划器,并学习基于扩散的策略作为低层动作控制器。研究的关键洞察在于利用基础模型进行强泛化,并使用基于扩散的模仿学习获取灵巧动作。此研究在机器人抓取领域具有显著影响,为灵巧抓取任务提供了新的研究方向,特别是在长距离抓取任务和复杂环境下的抓取策略学习方面,推动了相关技术的发展和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作