so100_nlact_block_instruct
收藏Hugging Face2025-05-14 更新2025-05-15 收录
下载链接:
https://huggingface.co/datasets/masato-ka/so100_nlact_block_instruct
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于机器人技术的数据集,包含40个剧集,每个剧集中有多个片段,每个片段包含1000个数据点。数据集以Apache-2.0许可发布,提供了关于机器人动作、状态、图像和指令等多种特征的数据。数据集的帧率为30fps,所有视频均为av1编码,没有音频。数据集的结构化数据以.parquet格式存储。
创建时间:
2025-05-12
原始信息汇总
数据集概述
基本信息
- 名称: masato-ka/so100_nlact_block_instruct
- 许可证: Apache-2.0
- 任务类别: 机器人学 (robotics)
- 标签: LeRobot, so100, vla, langage conditon
数据集描述
- 创建工具: LeRobot
- 主页: [More Information Needed]
- 论文: [More Information Needed]
数据集结构
- 配置名称: default
- 数据文件: data//.parquet
- 元数据文件: meta/info.json
元数据详情
- 代码库版本: v2.1
- 机器人类型: so100
- 总集数: 40
- 总帧数: 23829
- 总任务数: 7
- 总视频数: 40
- 总块数: 1
- 块大小: 1000
- 帧率: 30 fps
- 分割:
- 训练集: 0:40
数据路径
- 数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
- 视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征
- 动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
- 观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
- 观测图像 (observation.images.front):
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30 fps
- 通道数: 3
- 是否有音频: false
- 观测指令 (observation.instruction):
- 数据类型: float32
- 形状: [1, 768]
- 名称: row, embedding
- 时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
- 帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
- 集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
- 索引 (index):
- 数据类型: int64
- 形状: [1]
- 任务索引 (task_index):
- 数据类型: int64
- 形状: [1]
引用
- BibTeX: [More Information Needed]
搜集汇总
数据集介绍

构建方式
在机器人技术领域,so100_nlact_block_instruct数据集通过LeRobot平台系统构建,涵盖40个完整任务片段,总计23829帧数据。数据以Parquet格式存储,每个片段包含机器人状态、动作指令及前视图像,采用30fps帧率记录,确保时序一致性。构建过程整合了多模态信息,包括6维关节状态和768维语言嵌入,为视觉语言动作研究提供结构化基础。
使用方法
使用者可通过加载Parquet文件直接访问结构化数据,利用帧索引和时戳进行时序建模。前视图像与动作状态数据可联合训练视觉语言动作模型,语言嵌入指导任务执行。数据集支持分割为训练集,涵盖全部40个片段,适用于端到端机器人策略学习或行为克隆实验,提升模型在真实场景中的泛化能力。
背景与挑战
背景概述
在机器人学习领域,视觉语言动作模型已成为推动具身智能发展的重要方向。so100_nlact_block_instruct数据集由LeRobot研究团队基于Apache 2.0协议构建,专门面向SO100型机械臂的指令驱动操作任务。该数据集包含40个完整交互序列,涵盖7类核心操作任务,通过融合多模态观测数据与语言指令嵌入,为机器人执行复杂环境中的语义化操作提供关键训练资源。其创新性地将768维语言嵌入向量与六自由度关节控制信号、480p视觉观测流进行时序对齐,为研究语言条件化策略学习奠定了数据基础。
当前挑战
该数据集致力于解决视觉语言动作策略在真实场景中的泛化性难题,其核心挑战在于跨模态表征对齐的复杂性——如何有效桥接高维语言指令与连续动作空间的语义鸿沟。构建过程中面临多传感器时序同步的技术瓶颈,需精确协调30fps视觉流与6维关节状态数据的采集精度。此外,机械臂动作轨迹的平滑性与任务多样性之间的平衡亦构成重要挑战,需在有限 episode 数量内保持动作模式的丰富度与物理可行性。
常用场景
经典使用场景
在机器人学习领域,so100_nlact_block_instruct数据集为视觉语言动作模型提供了关键训练资源。其核心应用场景聚焦于多模态指令跟随任务,通过融合关节状态数据、前端视觉观测与语言指令嵌入,构建了从感知到执行的完整学习框架。该数据集支持机器人理解自然语言指令并生成对应动作序列,典型应用于桌面操作任务的端到端策略学习。
解决学术问题
该数据集有效解决了视觉语言动作对齐中的语义鸿沟问题。通过提供精确的动作标注与语言指令嵌入,研究者能够探索多模态表征的联合优化机制。其结构化数据支撑了模仿学习与强化学习算法的性能验证,尤其在跨模态注意力机制和时序动作预测方面,为机器人认知决策系统提供了可量化的评估基准。
实际应用
实际部署中,该数据集训练的模型可应用于工业分拣、家居服务等场景。基于六自由度机械臂的关节控制数据,系统能实现物体抓取、位姿调整等精细操作。其前端视觉模块与语言条件控制的结合,使机器人能响应“移动红色积木”等自然语言指令,显著提升了人机交互的直观性与操作效率。
数据集最近研究
最新研究方向
在具身智能与机器人学习领域,so100_nlact_block_instruct数据集凭借其多模态指令跟随特性,正成为视觉语言动作模型研究的关键资源。该数据集融合关节状态、视觉观测与语言指令嵌入,为探索机器人操作任务中的语义理解与动作生成提供了结构化实验基础。当前研究聚焦于跨模态表征对齐、指令条件策略优化等前沿方向,通过端到端学习框架提升机器人对复杂任务意图的泛化能力。随着具身智能研究范式的演进,此类数据集将推动机器人从被动执行向主动认知的转变,为工业自动化与家庭服务机器人奠定关键技术基石。
以上内容由遇见数据集搜集并总结生成



