so100_nlact_block_instruct_v3
收藏Hugging Face2025-05-23 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/masato-ka/so100_nlact_block_instruct_v3
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是使用LeRobot创建的,包含了70个剧集,每个剧集有多个帧,总共44058帧。数据集分为14个任务,共有70个视频。所有数据被分为一个块,每个块包含1000个数据点。数据集的帧率为30fps,目前仅提供训练集划分。数据集中的特征包括动作、状态、前视图像、指令、时间戳、帧索引、集索引、索引和任务索引等,涵盖了机器人操作的多种信息。
创建时间:
2025-05-23
原始信息汇总
数据集概述
基本信息
- 许可证: apache-2.0
- 任务类别: robotics
- 标签: LeRobot
- 创建工具: LeRobot
数据集结构
- 配置名称: default
- 数据文件: data//.parquet
- 代码库版本: v2.1
- 机器人类型: so100
- 总集数: 70
- 总帧数: 44058
- 总任务数: 14
- 总视频数: 70
- 总块数: 1
- 块大小: 1000
- 帧率: 30 fps
- 数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
- 视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征描述
- action:
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
- observation.state:
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
- observation.images.front:
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30 fps
- 通道数: 3
- 是否有音频: false
- observation.instruction:
- 数据类型: float32
- 形状: [1, 768]
- 名称: row, embedding
- timestamp:
- 数据类型: float32
- 形状: [1]
- frame_index:
- 数据类型: int64
- 形状: [1]
- episode_index:
- 数据类型: int64
- 形状: [1]
- index:
- 数据类型: int64
- 形状: [1]
- task_index:
- 数据类型: int64
- 形状: [1]
分割信息
- 训练集: 0:70
引用信息
- BibTeX: [More Information Needed]
搜集汇总
数据集介绍

构建方式
在机器人技术领域,so100_nlact_block_instruct_v3数据集通过LeRobot框架系统构建,涵盖70个完整任务片段,总计44058帧数据。数据以分块形式存储于Parquet文件中,每个片段包含机器人动作状态、前视图像及指令嵌入,采用30fps采样率确保时序连续性,为模仿学习提供结构化基础。
特点
该数据集以六自由度机械臂控制为核心,特征维度涵盖关节角度与夹持器状态,并集成480x640分辨率的前置视觉观测。指令嵌入采用768维向量表征任务目标,结合时间戳与帧索引实现多模态对齐,支持复杂环境下的策略泛化研究。
使用方法
研究者可通过加载Parquet数据文件访问机器人状态轨迹与视觉序列,利用动作-观测对训练端到端控制模型。视频流与特征向量支持联合解码,适用于行为克隆、强化学习等范式,任务索引机制便于针对特定场景进行模型验证与迁移实验。
背景与挑战
背景概述
在机器人学习领域,模仿学习与指令跟随能力的融合正成为推动智能体泛化性能提升的关键路径。so100_nlact_block_instruct_v3数据集由LeRobot团队基于Apache 2.0协议构建,其核心目标在于解决工业机械臂在复杂场景下的多模态指令理解与动作执行问题。该数据集通过整合关节状态观测、视觉感知与语义指令嵌入,构建了包含70个任务轨迹、44058帧数据的异构序列,为机器人操作策略的端到端学习提供了结构化实验基准。
当前挑战
该数据集面临的领域挑战主要体现在跨模态对齐的复杂性——如何将768维语义指令嵌入与六自由度机械臂动作空间建立稳健映射,同时克服视觉观测中光照变化与遮挡干扰。在构建过程中,数据采集系统需同步处理30Hz高频视频流与关节状态数据,并确保6维动作指令在so100型机械臂动力学约束下的可执行性,这对传感器校准与时间戳同步提出了极高要求。
常用场景
经典使用场景
在机器人操作技能学习领域,so100_nlact_block_instruct_v3数据集通过记录六自由度机械臂的关节控制指令与视觉观察序列,为模仿学习算法提供了结构化训练数据。该数据集包含70个完整操作任务序列,涵盖抓取、放置等基础动作轨迹,配合前视摄像头采集的480x640像素环境图像,能够有效支撑端到端策略网络的训练过程。
实际应用
在工业自动化场景中,该数据集支撑的模型可应用于精密装配、物料分拣等流程。通过解析自然语言指令与视觉场景的对应关系,系统能自主完成工具取放、零件定位等操作。其30Hz采样的连续动作序列为实时控制提供了数据基础,而包含的抓取器开合状态数据更直接服务于末端执行器的精确控制需求。
衍生相关工作
基于该数据特性,已有研究衍生出多模态动作预测框架与分层强化学习架构。部分工作聚焦于指令嵌入向量与运动基元的关联建模,开发出能理解抽象任务描述的策略网络。另有研究利用其连续帧序列特性,构建了基于时空注意力的动作分割算法,推动了长时序任务中动作边界检测技术的发展。
以上内容由遇见数据集搜集并总结生成



