carta2

Hugging Face2025-06-15 更新2025-06-16 收录

下载链接：

https://huggingface.co/datasets/JeffSSC/carta2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个机器人数据集，包含1个剧集，共893帧，1个任务，3个视频，1个块，块大小为1000。数据集的特征包括动作、观测状态、三种不同来源的图像（抓取、手机、卡片），时间戳、帧索引、剧集索引、索引和任务索引。所有数据均以Parquet格式存储，视频为AV1编码的MP4格式，无音频。

创建时间：

2025-06-15

搜集汇总

数据集介绍

构建方式

在机器人技术领域，高质量的数据集对于算法训练和系统优化至关重要。carta2数据集基于LeRobot框架构建，采用模块化设计理念，通过SO101型跟随机器人采集多维时序数据。数据集以Parquet格式存储，包含893帧30fps的视频流和对应的机械臂关节状态数据，采用分块存储策略确保高效访问，每个数据块容量设置为1000帧，并通过严格的版本控制（v2.1）保障数据一致性。

特点

该数据集展现出鲜明的多模态特性，同步记录了三路480×640分辨率的RGB视频流（garra、celular、cartas视角）与六自由度机械臂的动作-状态对。数据维度设计科学，动作空间包含肩部平移/抬升、肘部屈曲等6个关节位置参数，观测空间则通过同名状态变量实现动作-观测对齐。时间维度上精确标注了时间戳、帧序号和任务索引，为强化学习中的时序建模提供了完整上下文。

使用方法

研究者可通过解析Parquet文件直接获取张量化的观测-动作对，视频数据采用AV1编码存储于独立路径。典型应用场景包括：使用observation.images字段训练视觉表征模型，联合action与observation.state字段进行逆动力学学习，或利用episode_index实现离线强化学习的轨迹切片。数据已预分割为训练集，可直接加载至PyTorch等框架进行端到端训练。

背景与挑战

背景概述

carta2数据集作为机器人技术领域的重要资源，由LeRobot团队基于Apache 2.0协议构建，专注于多模态机器人操作任务的建模与分析。该数据集通过集成机械臂关节状态数据与多视角视觉信息，为机器人动作规划与视觉感知的联合研究提供了标准化基准。其核心价值在于采用SO101型跟随机器人采集的时序动作-观测对，包含893帧高同步精度数据，覆盖肩部平移、肘部屈伸等6自由度控制维度，以及480p分辨率的三路视频流，为模仿学习与强化学习算法验证奠定了数据基础。

当前挑战

该数据集面临的核心挑战体现在算法与构建两个层面。在算法层面，如何有效融合高维视频流与低维关节状态数据以提升动作预测精度，成为模型设计的瓶颈问题；6自由度机械臂的连续控制任务对时序建模的长期依赖性提出了严峻考验。在构建层面，多传感器数据的严格同步需克服硬件时钟漂移带来的毫秒级误差；三路视频流与关节数据的存储优化涉及TB级原始数据的压缩与检索效率平衡，而深度信息缺失限制了其在三维操作任务中的泛化能力。

常用场景

经典使用场景

在机器人控制与视觉感知领域，carta2数据集以其多模态数据结构和精确的机械臂动作记录，成为研究机器人任务学习的经典基准。该数据集通过整合关节位置数据、视觉观测和时间戳信息，为模仿学习和强化学习算法提供了丰富的训练素材，特别适用于机械臂抓取和物体操作任务的仿真与验证。

实际应用

在工业自动化场景中，carta2数据集支持开发智能分拣系统和精密装配机器人。基于该数据集训练的模型可应用于物流仓储中的物品抓取、电子制造中的元件组装等任务，其多视角视觉数据特别适合解决复杂环境下的物体定位与姿态估计问题。

衍生相关工作

围绕carta2数据集已衍生出多项机器人学习领域的重要研究，包括基于Transformer的多模态策略学习、视觉-动作联合嵌入方法等。这些工作通过利用数据集的时序动作序列和同步视觉观测，在连续控制任务中实现了超越传统方法的性能表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集