koch_masked
收藏Hugging Face2025-04-24 更新2025-04-25 收录
下载链接:
https://huggingface.co/datasets/aposadasn/koch_masked
下载链接
链接失效反馈官方服务:
资源简介:
这是一个关于机器人学任务的数据集,包含50个剧集,共38106帧,分为1个任务。数据集以Parquet格式存储,并提供了对应的视频文件。数据集特征包括机器人的观测状态、动作、以及两种摄像头(nexigo_webcam和realsense)的图像信息。
创建时间:
2025-04-24
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot, koch
- 代码库版本: v2.0
- 机器人类型: koch
数据集结构
- 总集数: 50
- 总帧数: 38106
- 总任务数: 1
- 总视频数: 100
- 总块数: 1
- 块大小: 1000
- 帧率: 30 fps
- 分割: 训练集 (0:50)
数据路径
- 数据文件路径:
data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet - 视频文件路径:
videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
特征描述
观测状态 (observation.state)
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan, shoulder_lift, elbow_flex, wrist_flex, wrist_roll, gripper
动作 (action)
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan, shoulder_lift, elbow_flex, wrist_flex, wrist_roll, gripper
观测图像 (observation.images.nexigo_webcam 和 observation.images.realsense)
- 数据类型: video
- 形状: [480, 640, 3]
- 名称: height, width, channels
- 视频信息:
- 帧率: 30.0
- 编解码器: av1
- 像素格式: yuv420p
- 深度图: false
- 音频: false
其他特征
- episode_index: int64, 形状 [1]
- frame_index: int64, 形状 [1]
- timestamp: float32, 形状 [1]
- next.done: bool, 形状 [1]
- index: int64, 形状 [1]
- task_index: int64, 形状 [1]
引用
- BibTeX: [More Information Needed]
搜集汇总
数据集介绍

构建方式
在机器人技术领域,koch_masked数据集的构建依托于LeRobot开源框架,采用先进的模块化设计理念。该数据集通过50个完整任务场景的连续记录,以30fps的采样频率捕获了38106帧多模态数据,并以分块存储的Parquet格式高效组织。数据采集过程同步整合了6自由度机械臂的关节状态、双摄像头视觉流(Nexigo网络摄像头和RealSense深度相机)以及精确的时间戳标记,构建了时空对齐的多维观测-动作序列。
特点
该数据集最显著的特征在于其精细的机器人操作数据标注体系,不仅包含6维关节空间的状态向量(肩部平移/抬升、肘部屈曲、腕部屈曲/旋转及夹持器开合),还提供了480×640分辨率的双视角RGB视频流。数据架构采用层次化设计,通过episode_index和frame_index实现跨模态数据的精确索引,视频数据采用AV1编码压缩以平衡质量与存储效率。每个数据块(chunk)包含1000帧标准化记录,确保了数据访问的高效性。
使用方法
研究者可通过解析Parquet文件直接获取结构化机器人操作数据,其中observation.state字段对应机械臂实时位姿,action字段记录控制指令,而observation.images下存储双摄像头采集的视觉信息。配套的meta/info.json文件提供完整的元数据描述,包括传感器标定参数、数据维度说明及视频编码信息。该数据集特别适用于模仿学习、视觉伺服控制等算法的训练与验证,通过帧级对齐的多模态观测可实现端到端的机器人策略学习。
背景与挑战
背景概述
koch_masked数据集由LeRobot团队构建,专注于机器人学领域的研究与应用。该数据集采用Apache 2.0开源协议,包含50个任务片段和38106帧数据,涵盖了机器人状态观测、动作执行及多视角视觉信息。数据集通过高频率传感器(30fps)捕捉机械臂的关节状态(如肩部平移、肩部抬升、肘部弯曲等)及双摄像头(Nexigo Webcam与RealSense)的同步视频流,为机器人控制与视觉感知的联合研究提供了丰富资源。其核心研究问题聚焦于多模态数据融合下的机器人动作生成与环境交互,对强化学习与模仿学习在真实场景中的应用具有重要推动作用。
当前挑战
该数据集面临两大核心挑战:其一,在领域问题层面,如何从异构传感器数据(关节状态、双视角视频)中提取有效特征以实现精准的动作-视觉关联建模,这对机器人任务泛化能力提出较高要求;其二,在构建过程中,需解决多设备时序同步、大规模视频数据压缩(AV1编码)与存储优化问题,同时确保6自由度机械臂动作数据的物理合理性。此外,数据集中仅包含单一任务类型,可能限制其在复杂场景下的迁移学习潜力。
常用场景
经典使用场景
在机器人控制与行为学习领域,koch_masked数据集以其丰富的机械臂运动状态数据和多视角视觉信息,成为研究机器人动作规划与模仿学习的理想基准。该数据集通过捕捉Koch机械臂在真实环境中的关节角度、末端执行器状态及同步的双摄像头视频流,为研究者提供了完整的动作-感知闭环数据,特别适用于开发基于深度强化学习的机械臂控制算法。
衍生相关工作
该数据集已催生多项机器人学习领域的创新研究,包括基于Transformer的多模态策略网络架构、面向稀疏奖励的课程学习算法等。部分工作通过迁移学习将数据集预训练模型应用于其他机械臂平台,验证了其表征的泛化能力。在LeRobot生态系统中,该数据集常与仿真环境结合使用,形成虚实结合的机器人学习范式。
数据集最近研究
最新研究方向
在机器人控制与视觉感知领域,koch_masked数据集凭借其多模态特征和精细的机械臂运动记录,正成为强化学习与模仿学习研究的重要基准。数据集包含高帧率视频流与六自由度机械臂的精确状态数据,为探索基于视觉的端到端控制策略提供了丰富素材。近期研究聚焦于如何利用其同步的视觉-动作对,开发能适应动态环境的通用机器人策略,特别是在少样本迁移学习和跨任务泛化方面展现出潜力。工业界则关注该数据集在柔性制造场景中的应用,试图解决传统编程方法难以应对的复杂装配任务。
以上内容由遇见数据集搜集并总结生成



