so100_nlact_block_instruct

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/masato-ka/so100_nlact_block_instruct

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器人技术的数据集，包含40个剧集，每个剧集中有多个片段，每个片段包含1000个数据点。数据集以Apache-2.0许可发布，提供了关于机器人动作、状态、图像和指令等多种特征的数据。数据集的帧率为30fps，所有视频均为av1编码，没有音频。数据集的结构化数据以.parquet格式存储。

创建时间：

2025-05-12

原始信息汇总

数据集概述

基本信息

名称: masato-ka/so100_nlact_block_instruct
许可证: Apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot, so100, vla, langage conditon

数据集描述

创建工具: LeRobot
主页: [More Information Needed]
论文: [More Information Needed]

数据集结构

配置名称: default
数据文件: data//.parquet
元数据文件: meta/info.json

元数据详情

代码库版本: v2.1
机器人类型: so100
总集数: 40
总帧数: 23829
总任务数: 7
总视频数: 40
总块数: 1
块大小: 1000
帧率: 30 fps
分割:
- 训练集: 0:40

数据路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测图像 (observation.images.front):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
  - 高度: 480
  - 宽度: 640
  - 编解码器: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 帧率: 30 fps
  - 通道数: 3
  - 是否有音频: false
观测指令 (observation.instruction):
- 数据类型: float32
- 形状: [1, 768]
- 名称: row, embedding
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
索引 (index):
- 数据类型: int64
- 形状: [1]
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]

引用

BibTeX: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，so100_nlact_block_instruct数据集通过LeRobot平台系统构建，涵盖40个完整任务片段，总计23829帧数据。数据以Parquet格式存储，每个片段包含机器人状态、动作指令及前视图像，采用30fps帧率记录，确保时序一致性。构建过程整合了多模态信息，包括6维关节状态和768维语言嵌入，为视觉语言动作研究提供结构化基础。

使用方法

使用者可通过加载Parquet文件直接访问结构化数据，利用帧索引和时戳进行时序建模。前视图像与动作状态数据可联合训练视觉语言动作模型，语言嵌入指导任务执行。数据集支持分割为训练集，涵盖全部40个片段，适用于端到端机器人策略学习或行为克隆实验，提升模型在真实场景中的泛化能力。

背景与挑战

背景概述

在机器人学习领域，视觉语言动作模型已成为推动具身智能发展的重要方向。so100_nlact_block_instruct数据集由LeRobot研究团队基于Apache 2.0协议构建，专门面向SO100型机械臂的指令驱动操作任务。该数据集包含40个完整交互序列，涵盖7类核心操作任务，通过融合多模态观测数据与语言指令嵌入，为机器人执行复杂环境中的语义化操作提供关键训练资源。其创新性地将768维语言嵌入向量与六自由度关节控制信号、480p视觉观测流进行时序对齐，为研究语言条件化策略学习奠定了数据基础。

当前挑战

该数据集致力于解决视觉语言动作策略在真实场景中的泛化性难题，其核心挑战在于跨模态表征对齐的复杂性——如何有效桥接高维语言指令与连续动作空间的语义鸿沟。构建过程中面临多传感器时序同步的技术瓶颈，需精确协调30fps视觉流与6维关节状态数据的采集精度。此外，机械臂动作轨迹的平滑性与任务多样性之间的平衡亦构成重要挑战，需在有限 episode 数量内保持动作模式的丰富度与物理可行性。

常用场景

经典使用场景

在机器人学习领域，so100_nlact_block_instruct数据集为视觉语言动作模型提供了关键训练资源。其核心应用场景聚焦于多模态指令跟随任务，通过融合关节状态数据、前端视觉观测与语言指令嵌入，构建了从感知到执行的完整学习框架。该数据集支持机器人理解自然语言指令并生成对应动作序列，典型应用于桌面操作任务的端到端策略学习。

解决学术问题

该数据集有效解决了视觉语言动作对齐中的语义鸿沟问题。通过提供精确的动作标注与语言指令嵌入，研究者能够探索多模态表征的联合优化机制。其结构化数据支撑了模仿学习与强化学习算法的性能验证，尤其在跨模态注意力机制和时序动作预测方面，为机器人认知决策系统提供了可量化的评估基准。

实际应用

实际部署中，该数据集训练的模型可应用于工业分拣、家居服务等场景。基于六自由度机械臂的关节控制数据，系统能实现物体抓取、位姿调整等精细操作。其前端视觉模块与语言条件控制的结合，使机器人能响应“移动红色积木”等自然语言指令，显著提升了人机交互的直观性与操作效率。

数据集最近研究