so101_two_cam

Hugging Face2025-09-06 更新2025-09-07 收录

下载链接：

https://huggingface.co/datasets/Teddy14/so101_two_cam

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个与机器人学相关的数据集，包含32个剧集，共27811个帧，64个视频。数据集的结构包括机器人的动作和观察状态，如肩部、肘部、手腕的位置，以及视频数据。数据集以Parquet文件格式存储，并提供了对应的视频文件。所有数据均按照Apache-2.0许可证授权。

创建时间：

2025-09-06

原始信息汇总

数据集概述

基本信息

名称: Teddy14/so101_two_cam
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集结构

总任务数: 1
总片段数: 32
总帧数: 27811
总视频数: 64
总块数: 1
块大小: 1000
帧率: 30 fps
分割: 训练集（0:32）

数据格式

数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征描述

动作特征

名称: action
数据类型: float32
形状: [6]
维度名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态特征

名称: observation.state
数据类型: float32
形状: [6]
维度名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

右图像观测特征

名称: observation.images.right
数据类型: video
形状: [480, 640, 3]
维度名称:
- height
- width
- channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

左图像观测特征

名称: observation.images.left
数据类型: video
形状: [480, 640, 3]
维度名称:
- height
- width
- channels
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30
- 通道数: 3
- 包含音频: false

其他特征

timestamp: float32, 形状[1]
frame_index: int64, 形状[1]
episode_index: int64, 形状[1]
index: int64, 形状[1]
task_index: int64, 形状[1]

技术信息

代码库版本: v2.1
机器人类型: so101_follower

创建信息

创建工具: LeRobot (https://github.com/huggingface/lerobot)

搜集汇总

数据集介绍

构建方式

在机器人技术领域，so101_two_cam数据集通过LeRobot框架系统构建，采用双摄像头同步采集视觉与运动数据。该数据集包含32个完整情节，总计27811帧图像，以30fps的帧率记录，数据以Parquet格式分块存储，确保高效存取与处理。每个数据块涵盖机器人的关节位置、状态观测及双视角图像，结构设计科学严谨。

使用方法

该数据集适用于机器人模仿学习与强化学习任务，研究者可通过加载Parquet文件直接获取观测图像、关节状态及动作标签。支持按情节索引提取训练样本，或利用视频路径调用视觉数据。数据集默认划分为训练集，可直接用于模型训练与验证，促进机器人控制算法的开发与优化。

背景与挑战

背景概述

机器人视觉控制领域近年来呈现出蓬勃发展的态势，so101_two_cam数据集作为LeRobot项目的重要组成部分，专注于双视角机器人操作任务的深度学习研究。该数据集通过集成左右双摄像头采集的视觉信息与六自由度机械臂的动作数据，为模仿学习与行为克隆算法提供了高质量的多模态训练资源。其设计理念体现了对机器人精细操作任务中视觉-动作协同机制的系统性探索，为智能机器人自主执行复杂任务奠定了数据基础。

当前挑战

该数据集致力于解决机器人视觉伺服控制中的视角差异与动作映射难题，其核心挑战在于如何有效融合双视角视觉信息以实现精确的动作生成。在构建过程中面临多传感器时序同步、大规模视频数据压缩存储、以及高维度动作空间标注等关键技术瓶颈。双摄像头标定参数的稳定性、不同光照条件下的视觉一致性、以及长时序动作序列的连续性保证，都是数据集构建过程中需要克服的实际操作困难。

常用场景

经典使用场景

在机器人视觉控制领域，so101_two_cam数据集通过双视角视觉输入与机械臂关节状态的同步记录，为模仿学习算法提供了丰富的训练素材。其经典应用场景包括基于视觉的机械臂运动策略生成，研究者可利用左右摄像头采集的环境图像与六自由度机械臂动作数据，训练端到端的视觉运动控制模型。

解决学术问题

该数据集有效解决了视觉-运动映射关系建模中的多模态对齐难题，为机器人模仿学习提供了标准化的评估基准。通过提供精确的时间同步双视角视频流与关节状态数据，它支持研究者探索视觉表征学习、动作预测算法以及跨视角一致性保持等核心学术问题，推动了视觉伺服控制理论的发展。

实际应用

在实际工业场景中，该数据集支撑了智能分拣系统、精密装配作业等应用开发。基于双视角视觉的机械臂控制模型可适应复杂光照条件下的物体抓取任务，其提供的六关节精确控制数据为柔性制造生产线中的自动化设备提供了行为范本，显著提升了工业机器人的环境感知与自主操作能力。

数据集最近研究