eval_so101_two_cam

Hugging Face2025-09-06 更新2025-09-07 收录

下载链接：

https://huggingface.co/datasets/Teddy14/eval_so101_two_cam

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人学的数据集，使用LeRobot创建，包含3个剧集、1791个帧、1个任务和6个视频。数据集的结构详细说明了数据文件和视频文件的路径，以及包括动作、观测状态、右侧和左侧观测图像等特征。此外，还包括时间戳、帧索引、剧集索引、索引和任务索引等元数据。数据集仅针对训练进行分割，范围是0到3。视频和图像特征采用AV1编解码器和YUV420p像素格式，帧率为30 FPS，没有音频通道。

创建时间：

2025-09-06

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集描述

创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集结构

总情节数: 3
总帧数: 1791
总任务数: 1
总视频数: 6
总块数: 1
块大小: 1000
帧率: 30 FPS
数据分割: 训练集 (0:3)
数据格式: Parquet
代码库版本: v2.1
机器人类型: so101_follower

特征结构

动作特征

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态特征

数据类型: float32
形状: [6]
名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

右图像观测特征

数据类型: 视频
形状: [480, 640, 3]
视频信息: 高度480像素, 宽度640像素, AV1编解码器, YUV420p像素格式, 非深度图, 30FPS, 3通道, 无音频

左图像观测特征

数据类型: 视频
形状: [480, 640, 3]
视频信息: 高度480像素, 宽度640像素, AV1编解码器, YUV420p像素格式, 非深度图, 30FPS, 3通道, 无音频

其他特征

时间戳: float32, 形状[1]
帧索引: int64, 形状[1]
情节索引: int64, 形状[1]
索引: int64, 形状[1]
任务索引: int64, 形状[1]

存储路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

搜集汇总

数据集介绍

构建方式

在机器人技术领域，eval_so101_two_cam数据集通过LeRobot框架系统构建，采用双摄像头配置记录机器人操作过程。数据采集过程中，机器人执行特定任务，同步捕获左右视角的高清视频流以及关节状态信息。所有数据以30帧每秒的速率采样，并结构化存储为Parquet格式，确保时序一致性和高效访问。

使用方法

研究者可通过加载Parquet文件直接访问多模态序列，利用帧索引和任务索引进行数据切片。视频数据可通过指定路径解码，动作与状态字段支持机器人策略训练与验证。数据集适用于模仿学习、行为克隆等任务，其分块设计兼容流式处理，适合分布式训练环境。

背景与挑战

背景概述

机器人学习领域近年来对多模态感知与控制策略融合的需求日益增长，eval_so101_two_cam数据集应运而生。该数据集由HuggingFace的LeRobot项目团队构建，专门面向双摄像头配置的SO101型跟随机器人系统。其核心研究在于解决机器人视觉伺服控制中的状态估计与动作生成问题，通过同步采集左右摄像头视觉流与六自由度关节状态数据，为模仿学习与强化学习算法提供多模态训练资源。该数据集采用Apache 2.0开源协议，其结构化存储格式与高精度时序对齐特性为机器人行为克隆研究提供了重要基础支撑。

当前挑战

该数据集主要应对机器人视觉运动控制中的跨模态表征学习挑战，需解决双视角视觉信息与关节运动状态的时空对齐问题。构建过程中面临多传感器数据同步采集的技术难点，包括双摄像头帧率同步校准、机械臂运动轨迹与视觉观测的时间戳精确匹配。此外，高分辨率视频流与连续动作数据的存储优化构成工程挑战，需要平衡数据精度与存储效率。原始数据包含1791帧480p双视角视频与6维动作向量，对数据压缩算法和快速检索机制提出较高要求。

常用场景

经典使用场景

在机器人视觉控制领域，eval_so101_two_cam数据集通过双摄像头采集的同步视觉数据与机械臂关节状态信息，为模仿学习算法提供了多模态训练范本。其经典应用场景包括基于视觉的机械臂轨迹生成任务，研究者可利用左右视角的图像序列与对应动作标签，训练神经网络理解三维空间中的操作意图。

解决学术问题

该数据集有效解决了视觉-动作映射中的视角差异问题，为跨视角动作预测模型提供了验证基准。通过提供精确的时间同步双视角视频流与六自由度机械臂动作数据，它支撑了多传感器融合、视觉伺服控制等关键研究方向，显著提升了机器人模仿学习在复杂环境中的泛化能力。

实际应用

工业自动化场景中，该数据集可直接应用于双视觉引导的机械臂分拣系统。通过学左右摄像头捕捉的物体空间姿态，系统能够实时计算最优抓取路径，特别适用于电子元件装配、物流包裹分拣等需高精度定位的场景，大幅降低传统示教编程的时间成本。

数据集最近研究