Robotic-CLIP Action Dataset

github2025-03-03 更新2025-03-04 收录

下载链接：

https://github.com/Fsoft-AIC/RoboticCLIP

下载链接

链接失效反馈

官方服务：

资源简介：

为了提升机器人感知能力，我们构造了一个包含309,433个视频（约740万帧）的大型动作数据集，使用基础模型进行标注以实现动作理解。

To enhance robotic perception capabilities, we constructed a large-scale action dataset containing 309,433 videos (approximately 7.4 million frames), which was annotated using foundation models to enable action understanding.

创建时间：

2025-03-03

原始信息汇总

Robotic-CLIP 数据集概述

简介

Robotic-CLIP 是一种针对机器人应用对 CLIP 进行微调的模型，旨在通过大规模动作数据集提高机器人对动态动作的理解能力。该模型在抓取检测、策略学习和视觉导航等多个机器人任务中表现出优于 CLIP 和 Alpha-CLIP 的性能。

关键贡献

Robotic-CLIP 模型： 一种新颖的微调 CLIP 模型，通过将视频帧与动作描述对齐，提高机器人感知能力。
大规模动作数据集： 构建了一个包含 309,433 个视频（约 7.4M 帧视频）的数据集，使用基础模型进行标注，以实现动作理解。
新的微调方法： 一种对比学习管道，在保持 CLIP 静态图像能力的同时引入动作感知。
卓越性能： 在多个机器人任务中表现出色，包括抓取检测、策略学习和视觉导航。
实际应用： 使用 Kinova Gen3 机器人在抓取任务中展示了其有效性。

数据集

为了微调 Robotic-CLIP，使用了以下三个大规模动作数据集：

Something-Something V2： 220,847 个视频，涵盖 174 个动作类别。
BridgeData V2： 60,096 个视频，覆盖 13 个机器人操作动作。
RoboSet： 28,500 个视频，包含 12 个机器人任务。

这些数据集使用 GroundingDINO 和 SAM 处理，生成 alpha masks，使 Robotic-CLIP 能够关注与动作相关的对象区域。最终数据集由 309,433 个视频（约 7.4M 帧视频）组成，成为机器人感知领域最大的动作数据集之一。

引用

在使用该代码进行研究成果时，请引用以下文献：

@inproceedings{nguyen2025robotic, title={Robotic-CLIP: Fine-tuning CLIP on Action Data for Robotic Applications}, author={Nguyen, Nghia and Vu, Minh Nhat and Ta, Tung D and Huang, Baoru and Vo, Thieu and Le, Ngan and Nguyen, Anh}, booktitle = {ICRA}, year={2025} }

搜集汇总

数据集介绍

构建方式

为了提升机器人的感知能力，研究团队构建了Robotic-CLIP Action Dataset。该数据集通过整合Something-Something V2、BridgeData V2和RoboSet三个大规模动作数据集，并利用GroundingDINO和SAM技术生成alpha masks，专注于动作相关的对象区域，最终形成了包含309,433个视频（约7.4M帧）的庞大动作数据集。

使用方法

使用该数据集进行模型训练时，用户需要设置CUDA环境，并配置适当的参数，如数据集路径、预训练模型位置、批量大小、训练和验证批次等。训练Robotic-CLIP模型及微调抓取检测模型的详细命令和参数均在官方文档中给出，便于用户遵循和实施。

背景与挑战

背景概述

Robotic-CLIP Action Dataset是一项旨在增强机器人感知能力的研究成果，其研究背景起源于对大规模动作数据集进行CLIP模型微调的需求。该数据集由Nguyen等人创建，并在2025年ICRA会议上发表的论文中提出。该数据集的核心研究问题是提升机器人在实际操作中对动态动作的理解与识别能力。通过构建一个包含309,433个视频（约7.4百万帧）的大规模动作数据集，并利用基础模型进行标注，Robotic-CLIP Action Dataset对机器人感知领域产生了显著影响。

当前挑战

该数据集在构建过程中面临的挑战包括：1) 如何通过微调CLIP模型，使其在保持静态图像处理能力的同时，增加对动作的感知能力；2) 如何处理和整合三个大规模的动作数据集（Something-Something V2、BridgeData V2和RoboSet），以便于模型训练和提升动作识别准确性；3) 如何在实际的机器人任务中，如抓取任务，验证模型的有效性。此外，该数据集在解决机器人领域动作理解问题时，还需克服动作多样性、数据标注一致性以及实际应用中的泛化能力等挑战。

常用场景

经典使用场景

在机器人学领域，Robotic-CLIP Action Dataset的典型应用场景在于通过大规模动作数据对CLIP模型进行微调，从而提升机器人对动态动作的理解能力。该数据集的构建旨在辅助机器人更好地识别和执行现实世界中的动作任务，如抓取、导航等。

解决学术问题

该数据集解决了机器人视觉感知中动态动作识别和抓取检测的准确性问题，通过微调CLIP模型，显著提升了机器人在执行任务时的动作识别能力，为机器人学中的视觉导航、策略学习等提供了有效的数据支持。

实际应用

在实际应用中，Robotic-CLIP Action Dataset被用于训练的模型已展现其在抓取任务中的有效性，例如使用Kinova Gen3机器人进行物体抓取。该数据集的应用有助于推动机器人技术的商业化发展，提高机器人在复杂环境下的自适应能力。

数据集最近研究