so101-simple-table-cleanup

Hugging Face2026-04-16 更新2026-04-17 收录

下载链接：

https://huggingface.co/datasets/dnn1002/so101-simple-table-cleanup

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是LeRobot项目的一部分，专为机器人技术任务设计，采用Apache 2.0许可证。数据集包含10个完整的情节，总计4433帧，涉及1个任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括动作数据（如肩部、肘部、腕部和夹持器的位置）、观察数据（包括状态和来自夹持器及顶部摄像头的图像数据），以及时间戳、帧索引、情节索引和任务索引等元数据。视频数据采用AV1编码，分辨率为480x640，无音频。该数据集适用于机器人控制、行为模仿和视觉导航等研究领域。

创建时间：

2026-04-10

原始信息汇总

数据集概述

基本信息

数据集名称: so101-simple-table-cleanup
托管地址: https://huggingface.co/datasets/dnn1002/so101-simple-table-cleanup
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot
可视化页面: https://huggingface.co/spaces/lerobot/visualize_dataset?path=dnn1002/so101-simple-table-cleanup

数据集结构

代码库版本: v3.0
机器人类型: so_follower
总任务数: 1
总情节数: 50
总帧数: 24008
数据块大小: 1000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 fps
数据分割: 训练集 (train) 包含所有50个情节
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作 (action)

数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测状态 (observation.state)

数据类型: float32
形状: [6]
维度名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos

观测图像 - 夹爪摄像头 (observation.images.gripper)

数据类型: 视频
形状: [480, 640, 3]
维度名称: 高度, 宽度, 通道数
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 fps
- 通道数: 3
- 包含音频: 否

观测图像 - 顶部摄像头 (observation.images.top)

数据类型: 视频
形状: [480, 640, 3]
维度名称: 高度, 宽度, 通道数
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: 否
- 帧率: 30 fps
- 通道数: 3
- 包含音频: 否

元数据

时间戳 (timestamp): float32, 形状 [1]
帧索引 (frame_index): int64, 形状 [1]
情节索引 (episode_index): int64, 形状 [1]
索引 (index): int64, 形状 [1]
任务索引 (task_index): int64, 形状 [1]

补充说明

主页: 信息缺失
论文: 信息缺失
引用格式: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人操作领域，高质量的数据集对于模型训练至关重要。so101-simple-table-cleanup数据集依托LeRobot平台构建，通过采集真实机器人执行简单桌面清理任务的过程数据而成。该数据集包含10个完整的情节，总计4433帧，以30帧每秒的速率记录，数据以分块Parquet文件形式存储，并配有同步的MP4格式视频文件，确保了时序信息与视觉观测的精确对齐。

特点

该数据集在机器人模仿学习与视觉运动控制研究中展现出显著特色。其核心特征在于融合了多模态观测信息，包括机器人关节位置状态以及来自顶部和夹爪视角的双路RGB视频流，每路视频分辨率均为640x480。数据维度设计严谨，动作与状态空间均涵盖六自由度机械臂的关节位置，提供了连贯且标注清晰的任务执行轨迹，适用于端到端策略学习或行为克隆等算法验证。

使用方法

研究者可利用该数据集推进机器人技能学习相关的工作。数据集已预分为训练集，可直接通过Hugging Face数据集库加载。典型使用流程包括解析Parquet文件以获取动作、状态及时间戳序列，同时结合对应路径下的视频文件进行视觉特征提取。该结构便于构建以图像为输入、以关节动作为输出的监督学习模型，或用于评估策略在真实世界任务中的泛化能力。

背景与挑战

背景概述

在机器人学习领域，高质量、大规模的真实世界交互数据集对于推动模仿学习与强化学习算法的进步至关重要。so101-simple-table-cleanup数据集由LeRobot团队创建，旨在为机器人操作任务提供结构化的示范数据。该数据集聚焦于桌面清理这一具体场景，通过记录机械臂的关节状态、夹爪及顶部摄像头视频等多模态观测信息，以及对应的动作序列，为训练机器人执行精细化操作任务奠定了数据基础。其采用Apache 2.0开源协议，体现了开放科学的精神，有助于促进机器人社区在真实环境技能学习方面的协作与研究。

当前挑战

该数据集致力于解决机器人模仿学习中从多模态演示数据到有效策略生成的挑战，核心在于如何从包含视觉与状态信息的序列中提取鲁棒的行为模式。构建过程中的挑战包括确保数据采集的连贯性与安全性，在真实物理环境中精确同步多路传感器信号，以及处理高维视频数据带来的存储与计算负担。此外，标注动作与观测的对应关系，并保证不同演示片段之间任务执行的一致性，也是构建高质量、可泛化数据集的关键难点。

常用场景

经典使用场景

在机器人操作学习领域，so101-simple-table-cleanup数据集为模拟桌面清理任务提供了丰富的多模态交互数据。该数据集通过记录机械臂在结构化环境中的动作轨迹、关节状态以及来自顶部和夹爪摄像头的视觉信息，构建了一个完整的演示序列。研究者可以基于这些数据训练模仿学习或强化学习模型，使机器人能够学习如何执行拾取、放置等精细操作，从而在仿真或真实场景中复现桌面物品整理行为。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在机器人模仿学习与视觉运动控制领域。例如，基于LeRobot框架的后续研究利用此类数据开发了高效的策略蒸馏方法，提升了多任务学习的性能。同时，一些工作结合该数据集探索了跨模态表示学习，将视觉观察与关节动作对齐，为机器人理解复杂操作序列提供了新范式。

数据集最近研究