so101_wrist_top_cameras_set_merged

Hugging Face2025-10-25 更新2025-10-26 收录

下载链接：

https://huggingface.co/datasets/jrkhf/so101_wrist_top_cameras_set_merged

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，包含机器人的行为片段，数据以Parquet文件存储，视频以MP4格式存储。数据集记录了机器人的动作和观察信息，包括关节位置和摄像头图像。数据集仅包含训练数据，没有提供关于数据集的主页或论文信息。该数据集遵循Apache-2.0许可证。

创建时间：

2025-10-25

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 机器人技术
标签: LeRobot
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集规模

总任务数: 1
总回合数: 83
总帧数: 52978
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 500 MB
帧率: 30 FPS

数据划分

训练集: 0-83回合

数据结构

数据文件路径

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

动作特征

名称: action
数据类型: float32
维度: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

名称: observation.state
数据类型: float32
维度: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

顶部摄像头图像

名称: observation.images.top
数据类型: video
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
帧率: 30 FPS
深度图: 否
音频: 无

腕部摄像头图像

名称: observation.images.wrist
数据类型: video
分辨率: 480×640×3
视频编码: av1
像素格式: yuv420p
帧率: 30 FPS
深度图: 否
音频: 无

索引字段

时间戳: float32 [1]
帧索引: int64 [1]
回合索引: int64 [1]
索引: int64 [1]
任务索引: int64 [1]

技术信息

代码库版本: v3.0
机器人类型: so101_follower

引用信息

主页: 待补充
论文: 待补充
BibTeX引用: 待补充

搜集汇总

数据集介绍

构建方式

在机器人技术领域，数据集的构建质量直接影响算法的泛化能力。本数据集基于LeRobot框架开发，通过采集83个完整任务片段，涵盖52978帧高精度数据。采用分块存储机制，每个数据块包含1000帧记录，以Parquet格式高效组织，确保数据读取的流畅性与完整性。所有动作与状态信息均以30帧/秒的同步频率记录，为机器人控制研究提供了坚实的实验基础。

特点

该数据集在机器人感知与控制领域展现出显著的多模态特性。其核心优势在于融合了六自由度机械臂的连续动作轨迹与双视角视觉反馈，包含顶部与腕部摄像头采集的480x640分辨率RGB视频流。数据维度设计严谨，动作空间涵盖肩部平移、肩部抬升、肘部弯曲等六个关键关节参数，观测状态则同步记录对应的关节位置信息。这种结构化的多源数据融合为模仿学习与强化学习算法提供了丰富的训练素材。

使用方法

针对机器人学习任务的实际需求，本数据集提供了标准化的调用接口。研究者可通过解析Parquet数据文件获取结构化特征，其中动作向量与观测状态均以float32格式存储，视觉数据则通过视频路径索引调用。数据集采用全训练集划分模式，支持按片段索引或帧级索引进行数据提取。特别值得注意的是，视频流采用AV1编码压缩，在保持视觉质量的同时显著降低存储开销，便于在分布式训练环境中高效加载与处理。

背景与挑战

背景概述

在机器人操作研究领域，多模态感知数据的采集与分析对于提升机械臂的自主决策能力具有关键意义。so101_wrist_top_cameras_set_merged数据集由LeRobot研究团队构建，其核心目标在于通过整合顶部与腕部双视角视觉信息，结合六自由度关节控制指令，为机器人模仿学习与行为预测提供结构化数据支撑。该数据集包含83个完整任务序列、近五万帧同步观测记录，通过Apache 2.0协议开放共享，为机器人感知-动作闭环研究建立了标准化基准。

当前挑战

该数据集致力于解决机器人视觉-动作映射中的时空对齐难题，其挑战体现在多模态数据融合方面：双视角视觉流与关节状态数据需保持严格时序同步，且需克服不同传感器采样率的异构性问题。在构建过程中，研究人员面临高维度视频数据压缩存储的技术瓶颈，同时需确保六自由度动作指令在连续帧间的平滑过渡，这对运动轨迹的物理合理性提出了严格要求。

常用场景

经典使用场景

在机器人操作学习领域，so101_wrist_top_cameras_set_merged数据集通过融合顶部与腕部双视角视觉数据，为模仿学习算法提供了丰富的多模态训练素材。其记录的六自由度机械臂关节轨迹与同步图像序列，能够有效支撑端到端策略网络从原始传感器输入到动作输出的映射学习。这种多视角时空对齐的数据结构，特别适用于研究视觉-动作协同建模中的视角不变性与时空一致性等核心问题。

衍生相关工作

该数据集催生了多项机器人学习领域的创新研究，包括基于时空注意力机制的行为克隆框架、多视角视觉特征融合网络等经典工作。研究者利用其丰富的动作-观察对数据，开发了能够处理长时序依赖关系的分层强化学习算法。这些衍生成果不仅推动了LeRobot生态系统的完善，更为开源机器人学习社区提供了可复现的基准测试平台。

数据集最近研究