CloudGripper-Push-1K

github2024-10-03 更新2024-10-04 收录

下载链接：

https://github.com/cloudgripper/cloudgripper-push-1k

下载链接

链接失效反馈

官方服务：

资源简介：

CloudGripper-Push-1K是一个大型真实世界基于视觉的机器人推动数据集，包含1278小时和460,000个视频，记录了具有不同物理和背景属性的物体平面推动交互。

CloudGripper-Push-1K is a large-scale real-world vision-based robotic pushing dataset, consisting of 1,278 hours of recorded footage and 460,000 video clips that capture planar pushing interactions between objects with diverse physical properties and varied background settings.

创建时间：

2024-10-03

原始信息汇总

CloudGripper-Push-1K 数据集概述

摘要

随着机器人学习中的模型和数据集规模不断扩大，理解数据集中影响模型性能的具体因素变得愈发紧迫，以确保数据收集和模型性能的成本效益。本研究通过实验探讨了物理属性（颜色、摩擦系数、形状）和场景背景特征（如背景对象的复杂性和动态交互）如何影响视频Transformer在预测平面推动轨迹中的性能。我们旨在研究三个主要问题：物理属性和背景场景特征如何影响模型性能？属性变化对模型泛化能力的影响有多大？适应新场景所需的微调数据比例是多少？为了促进这项研究，我们提出了CloudGripper-Push-1K，这是一个包含1278小时和460,000个视频的大型真实世界基于视觉的机器人推动数据集，涵盖了具有不同物理和背景属性的平面推动交互。我们还提出了Video Occlusion Transformer (VOT)，这是一个基于视频Transformer的轨迹预测框架，具有三种2D空间编码器选择，作为我们案例研究的主题。

数据集

示例数据集: CloudGripper 项目页面
完整数据集: CloudGripper-Push-1K 数据集

安装

bash conda create -n vot python=3.9 conda activate vot pip install -r requirements.txt

在SLURM上训练

bash sbatch example.sh

搜集汇总

数据集介绍

构建方式

在机器人操作领域，CloudGripper-Push-1K数据集的构建旨在深入探究物理属性和背景特征对视频变换器在预测平面推动轨迹中的影响。该数据集通过记录1278小时和460,000个视频片段，捕捉了不同物理属性（如颜色、摩擦系数、形状）和背景复杂性下的平面推动交互。这些数据通过精心设计的实验环境生成，确保了数据的高质量和多样性，从而为研究模型性能与数据特征之间的关系提供了坚实的基础。

特点

CloudGripper-Push-1K数据集的显著特点在于其大规模和多样性。该数据集不仅包含了大量的视频数据，还涵盖了多种物理属性和背景场景，使得研究者能够全面分析这些因素对模型性能的影响。此外，数据集的构建过程中特别关注了背景对象的动态交互，这为研究复杂场景下的模型适应性提供了宝贵的资源。

使用方法

使用CloudGripper-Push-1K数据集时，研究者可以通过提供的安装指南快速配置环境，并利用预设的训练脚本在SLURM集群上进行模型训练。数据集的详细结构和示例数据可在官方网站上获取，帮助用户快速上手。通过分析该数据集，研究者可以深入理解物理属性和背景特征对视频变换器性能的影响，进而优化模型设计和数据收集策略。

背景与挑战

背景概述

在机器人学习领域，随着模型和数据集规模的不断扩大，理解数据集中特定因素对模型性能的影响变得愈发重要。CloudGripper-Push-1K数据集由KTH皇家理工学院的研究团队创建，旨在探讨物理属性（如颜色、摩擦系数、形状）和场景背景特征（如复杂性和动态交互）如何影响视频变换器在预测平面推动轨迹中的表现。该数据集包含1278小时和460,000个视频，涵盖了不同物理和背景属性的平面推动交互，为研究模型在不同场景下的泛化能力提供了丰富的资源。

当前挑战

CloudGripper-Push-1K数据集面临的挑战主要集中在物理属性和背景场景特征对模型性能的影响上。具体挑战包括：1) 如何量化和分离这些属性对模型预测精度的影响；2) 识别哪些属性的变化对模型泛化能力最为不利；3) 确定适应新场景所需的最小微调数据量。此外，数据集的构建过程中也面临视频数据的高效采集和处理、确保数据多样性和代表性等技术难题。

常用场景

经典使用场景

在机器人操作领域，CloudGripper-Push-1K数据集被广泛用于研究物理属性和背景特征对视频变换器在预测平面推动轨迹中的影响。该数据集通过包含1278小时和460,000个视频的实际机器人推动交互，提供了丰富的物理属性（如颜色、摩擦系数、形状）和背景复杂性数据，使得研究人员能够深入探讨这些因素如何影响模型性能。

衍生相关工作

基于CloudGripper-Push-1K数据集，研究者们开发了多种视频变换器模型，如Video Occlusion Transformer (VOT)，用于更精确的轨迹预测。这些模型不仅在学术界引起了广泛关注，还在工业界得到了应用，推动了机器人操作技术的发展和创新。

数据集最近研究