CALVIN|机器人操作数据集|策略训练数据集

arXiv2024-12-19 更新2024-12-24 收录

机器人操作

策略训练

下载链接：

https://robovlms.github.io/

下载链接

链接失效反馈

资源简介：

CALVIN数据集是由清华大学和字节跳动研究等机构创建的机器人操作任务数据集，包含34个基本任务和24K人类远程操作演示，标注了语言指令。数据集大小适中，主要用于多任务桌面操作的模拟评估。数据集的创建过程涉及人类远程操作和语言标注，旨在通过丰富的任务和指令数据提升机器人策略的泛化能力。该数据集主要应用于机器人策略的训练和评估，特别是在模拟环境中测试机器人策略的有效性和鲁棒性。

提供机构：

清华大学, 字节跳动研究, 中科院自动化所MAIS-NLPR, 上海交通大学, 新加坡国立大学

创建时间：

2024-12-19

AI搜集汇总

数据集介绍

构建方式

CALVIN数据集的构建基于多任务桌面操作场景，通过人工远程操作生成演示数据，并附带语言指令标注。数据集包含四个场景划分（A、B、C、D），涵盖34个基本任务，提供了24,000条人类远程操作的轨迹，每条轨迹包含少于64个时间步。该数据集的构建旨在支持语言条件下的长期机器人操作任务，通过模拟环境中的多任务操作，为机器人策略的学习提供了丰富的训练数据。

使用方法

CALVIN数据集可用于训练和评估基于视觉-语言-动作模型的机器人策略。研究者可以通过该数据集训练模型，使其能够在多任务桌面操作场景中执行连续任务，并通过语言指令理解任务目标。数据集的评估指标包括完成连续任务的成功率和平均任务长度，研究者可以通过这些指标来衡量模型的性能。此外，数据集的场景划分允许研究者在不同场景下进行训练和测试，从而评估模型的泛化能力。

背景与挑战

背景概述

CALVIN数据集由Oier Mees等人于2022年创建，旨在为语言条件下的长期机器人操作任务提供一个基准。该数据集包含了24,000个由人类远程操作的演示，涵盖了34个基本任务，并附有语言指令。CALVIN的创建旨在解决机器人领域中长期存在的挑战，即如何构建能够感知、推理并根据人类指令与物理环境交互的通用机器人策略。该数据集的发布为机器人学界提供了一个重要的资源，推动了视觉-语言-动作模型（VLAs）在多任务场景中的应用研究。

当前挑战

CALVIN数据集的构建过程中面临了多个挑战。首先，如何有效地将视觉-语言模型（VLMs）迁移到视觉-语言-动作模型（VLAs）中，尤其是在不同的骨干网络、动作预测公式、数据分布和训练方法之间存在差异的情况下。其次，如何设计VLAs的架构，使其能够充分利用VLMs的强大表示能力，同时具备高效的泛化能力。此外，数据集的多样性和质量对VLAs的训练效果至关重要，如何利用跨实体数据集进一步提升模型的鲁棒性和泛化能力也是一个重要的挑战。

常用场景

经典使用场景

CALVIN数据集的经典使用场景主要集中在多任务桌面操作的模拟环境中。该数据集包含了34个基本任务，涵盖了从简单的物体旋转到复杂的序列操作，如打开抽屉并放置物体等。通过提供24,000个人类远程操作的演示，CALVIN为研究者提供了一个丰富的资源，用于训练和评估视觉-语言-动作模型（VLAs）在长时程机器人操作任务中的表现。

解决学术问题

CALVIN数据集解决了机器人领域中长期存在的挑战，即如何构建能够处理复杂任务并具有广泛泛化能力的通用机器人策略。通过提供多样化的任务和场景，CALVIN帮助研究者探索视觉-语言-动作模型在不同环境中的适应性和鲁棒性，从而推动了机器人基础模型的发展。

实际应用

CALVIN数据集在实际应用中具有广泛的前景，特别是在家庭服务机器人、工业自动化和医疗辅助机器人等领域。通过在模拟环境中训练和验证机器人策略，研究者可以加速从模拟到现实的迁移过程，减少在实际部署中的风险和成本。

数据集最近研究

相关研究论文

1
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models清华大学, 字节跳动研究, 中科院自动化所MAIS-NLPR, 上海交通大学, 新加坡国立大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

FMA (Free Music Archive)

免费音乐档案 (FMA) 是一个大型数据集，用于评估音乐信息检索中的多个任务。它包含 343 天的音频，来自 16,341 位艺术家的 106,574 首曲目和 14,854 张专辑，按 161 种流派的分级分类排列。它提供完整长度和高质量的音频、预先计算的功能，以及轨道和用户级元数据、标签和自由格式的文本，例如传记。作者定义了四个子集：Full：完整数据集，Large：音频限制为 30 秒的完整数据集从轨道中间提取的剪辑（如果短于 30 秒，则为整个轨道），Medium：选择25,000 个具有单一根流派的 30 年代剪辑，小：一个平衡的子集，包含 8,000 个 30 年代剪辑，其中 8 种根流派中的每一个都有 1,000 个剪辑。官方分为训练集、验证集和测试集（80/10/10）使用分层抽样来保留每个流派的曲目百分比。同一艺术家的歌曲只是一组的一部分。资料来源：FMA：音乐分析数据集

OpenDataLab 收录

中国30米分辨率土壤可蚀性因子数据集

该数据集为2018年中国30米分辨率土壤可蚀性因子（K）栅格数据，数据是利用中国1979-1994年的全国第二次土壤普查的成果数据进行计算；再利用径流小区观测数据修正计算结果；将修订结果利用反距离权重插值法插值生成栅格数据。特殊地类河湖库塘、冰川及永久积雪、裸岩土地类型K因子值强制赋值为0。如果用户采用的土地利用精度较高，建议重新对以下土地类型的K因子强制赋值为0：河湖库塘、冰川及永久积雪、裸岩。如果有K值为0，但不属于上述类型的，K因子可按如下原则：取邻近相同土地类型图斑的K值，或取与该图斑邻近且不等于0的所有图斑K值的平均值。

国家地球系统科学数据中心收录

Sleep

该数据集包含关于睡眠效率和持续时间的信息，每个条目代表一个独特的睡眠体验，并包括ID、年龄、性别、睡眠持续时间、睡眠效率、REM睡眠百分比、深度睡眠百分比、轻度睡眠百分比、觉醒次数、咖啡因消费、酒精消费和吸烟状况等列。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录