so101_task_smoke_v1

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/Julius2709/so101_task_smoke_v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为机器人学任务设计的，特别适用于‘so_follower’类型的机器人。数据集包含6个完整的情节，总计7195帧，涵盖1个任务。数据以parquet格式存储，并包含视频文件。数据集的结构通过meta/info.json文件详细描述，包括动作和观察状态（如机器人关节位置）、视频观察（前视摄像头，分辨率480x640，30fps）、时间戳和各种索引（如帧索引、情节索引等）。数据集采用Apache 2.0许可证，适用于机器人控制、行为克隆等任务。数据总大小约为100MB（数据文件）和200MB（视频文件），帧率为30fps。

创建时间：

2026-03-09

原始信息汇总

数据集概述

基本信息

数据集名称: so101_task_smoke_v1
发布者: Julius2709
托管平台: Hugging Face
许可证: Apache-2.0
任务类别: 机器人学

数据集来源与工具

创建工具: 该数据集使用 LeRobot 创建。
可视化链接: https://huggingface.co/spaces/lerobot/visualize_dataset?path=Julius2709/so101_task_smoke_v1

数据集规模与结构

总任务数: 1
总情节数: 6
总帧数: 7195
数据块大小: 1000
帧率: 30 fps
数据文件总大小: 100 MB
视频文件总大小: 200 MB
数据格式: Parquet
代码库版本: v3.0
机器人类型: so_follower
数据划分: 全部数据用于训练（"train": "0:6"）

数据特征

数据集包含以下主要特征：

动作

数据类型: float32
形状: [6]
描述: 包含6个关节的位置信息：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测状态

数据类型: float32
形状: [6]
描述: 包含与动作相同的6个关节位置信息。

观测图像（前视）

数据类型: video
形状: [480, 640, 3] (高度，宽度，通道)
视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30 fps
- 通道数: 3
- 是否包含音频: false

元数据

时间戳: float32，形状[1]
帧索引: int64，形状[1]
情节索引: int64，形状[1]
索引: int64，形状[1]
任务索引: int64，形状[1]

文件路径模式

数据文件路径: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

引用信息

论文: 未提供
主页: 未提供
BibTeX引用: 未提供

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建方式直接影响模型的学习效果。so101_task_smoke_v1数据集依托LeRobot平台精心构建，通过记录真实机器人执行任务的过程来收集数据。该数据集采用分块存储策略，将数据组织为多个Parquet文件，每个文件包含1000帧的数据片段，确保了高效的数据管理与访问。数据采集过程中，机器人以30帧每秒的速率同步记录关节位置状态与前端视觉图像，形成了包含6个完整任务片段、总计7195帧的多模态序列，为机器人模仿学习提供了结构化的训练资源。

特点

该数据集在机器人操作任务中展现出鲜明的技术特点。其核心在于融合了高维动作指令与丰富的观测信息，动作空间涵盖肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转及夹爪位置共六个自由度，而观测部分则同步提供相同的关节状态数据以及分辨率达480x640的三通道前端视觉视频流。数据集采用统一的时序索引机制，每帧数据均附带时间戳、帧索引与任务索引，确保了时序对齐与任务上下文的完整性。这种多模态、高同步的数据结构为端到端的策略学习奠定了坚实基础。

使用方法

对于研究者而言，该数据集的使用方法清晰而直接。数据以标准化的Parquet格式存储，可通过LeRobot提供的工具链或兼容的数据加载库进行读取与解析。数据集已预划分为训练集，包含全部6个任务片段，用户可依据帧索引或片段索引灵活提取所需的数据切片。在模型训练过程中，可联合利用动作向量、关节状态观测及视觉图像，构建状态-动作映射关系，适用于行为克隆、强化学习等算法验证。此外，数据集附带的可视化工具支持直观浏览任务执行过程，便于进行定性分析与调试。

背景与挑战

背景概述

在机器人学习领域，模仿学习与离线强化学习的发展亟需高质量、多模态的真实世界交互数据。so101_task_smoke_v1数据集应运而生，它由HuggingFace的LeRobot项目团队构建，旨在为机器人任务学习提供结构化示范。该数据集聚焦于单一任务，记录了六自由度机械臂在特定操作中的关节位置、状态观测及前端视觉信息，共计6个完整片段与7195帧数据。其核心研究问题在于如何通过有限的示范样本，有效促进机器人对复杂动作序列的理解与泛化，从而推动具身智能在现实场景中的适应性提升。

当前挑战

该数据集致力于解决机器人任务模仿中的序列决策挑战，即如何从高维视觉与状态观测中提取可泛化的策略。构建过程中面临多重困难：数据采集需协调机械臂的精确控制与同步多传感器记录，确保动作与观测的时间对齐；存储与处理大规模视频流与状态数据对计算资源提出较高要求；此外，示范数据规模有限，可能制约模型在未见情境下的鲁棒性表现。这些挑战共同指向机器人学习数据集的标准化与可扩展性需求。

常用场景

经典使用场景

在机器人学习领域，so101_task_smoke_v1数据集为模仿学习与强化学习算法的验证提供了关键支持。该数据集记录了六自由度机械臂执行单一任务时的关节位置、图像观察及时间戳信息，其经典使用场景集中于训练端到端的视觉运动策略模型。研究者可利用该数据集中的多模态数据，构建从视觉输入到关节动作的映射关系，从而探索在真实世界环境中机器人如何通过视觉反馈完成复杂操作任务。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在视觉运动策略的表示学习与多任务泛化方向。例如，基于LeRobot框架的后续研究利用此类数据集探索了时空特征提取与动作预测的联合优化方法。这些工作不仅扩展了数据集的用途，还推动了机器人学习社区在模型架构、数据增强与跨任务迁移等方面的创新，形成了持续的技术演进脉络。

数据集最近研究