eval_record-pick-and-place-so101_ft-3ep
收藏Hugging Face2025-11-24 更新2025-11-25 收录
下载链接:
https://huggingface.co/datasets/hbseong/eval_record-pick-and-place-so101_ft-3ep
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个机器人数据集,包含75个剧集,共90842帧,专注于单个任务。数据集以Parquet格式存储,并包括相应的视频文件。数据集的结构包括机器人的动作和状态信息,以及从顶部和右侧视角捕获的图像。所有视频均为无音频的AV1编码,分辨率为480x640,帧率为30fps。
创建时间:
2025-11-21
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
- 代码库版本: v3.0
数据集规模
- 总任务数: 1
- 总回合数: 75
- 总帧数: 90842
- 帧率: 30 FPS
- 数据块大小: 1000
- 数据文件大小: 100 MB
- 视频文件大小: 500 MB
数据结构
数据分割
- 训练集: 0-75回合
文件路径格式
- 数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
- 视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据特征
动作空间
- 数据类型: float32
- 维度: [6]
- 关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos
观测空间
状态观测
- 数据类型: float32
- 维度: [6]
- 关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos
图像观测
顶部摄像头:
- 数据类型: 视频
- 分辨率: 480×640×3
- 视频编码: AV1
- 像素格式: yuv420p
- 帧率: 30 FPS
- 深度图: 否
- 音频: 无
右侧摄像头:
- 数据类型: 视频
- 分辨率: 480×640×3
- 视频编码: AV1
- 像素格式: yuv420p
- 帧率: 30 FPS
- 深度图: 否
- 音频: 无
元数据
- 时间戳: float32 [1]
- 帧索引: int64 [1]
- 回合索引: int64 [1]
- 索引: int64 [1]
- 任务索引: int64 [1]
机器人信息
- 机器人类型: so101_follower
创建信息
- 创建工具: LeRobot (https://github.com/huggingface/lerobot)
搜集汇总
数据集介绍

构建方式
在机器人操作领域,eval_record-pick-and-place-so101_ft-3ep数据集通过LeRobot平台系统性地采集了真实环境下的抓取与放置任务数据。该数据集包含75个完整任务片段,总计90842帧观测记录,数据以分块Parquet文件形式存储,每块容量为1000帧,确保了高效的数据管理与访问。采集过程中,机器人状态与动作信息以30帧每秒的速率同步记录,构建了一个结构化的时序交互数据库。
特点
该数据集显著特点在于其多模态观测体系,同时整合了关节状态数据与双视角视觉信息。状态观测涵盖六自由度机械臂的完整位姿参数,而视觉数据则通过顶部与右侧双摄像头采集480x640分辨率RGB视频流。数据维度设计严谨,动作空间与状态空间均采用六维浮点向量表征,辅以精确的时间戳与任务索引,为模仿学习算法提供了丰富的时空上下文信息。
使用方法
研究者可通过加载标准Parquet数据文件直接访问结构化数据集,利用内置的帧索引与片段索引实现任务轨迹的完整重构。视觉数据以AV1编码视频流形式存储,支持通过指定视频路径调用对应视角的观测序列。该数据集专为机器人策略训练与评估设计,可配合LeRobot生态工具链进行端到端的模仿学习实验,其统一的数据范式显著降低了多模态融合研究的工程门槛。
背景与挑战
背景概述
在机器人操作任务研究领域,eval_record-pick-and-place-so101_ft-3ep数据集由HuggingFace的LeRobot项目团队构建,专注于拾取与放置这一经典操作任务。该数据集通过搭载so101_follower型机器人的多模态传感器,系统采集了包含关节位置、视觉观测与时间序列的交互数据,为模仿学习与强化学习算法提供了真实环境下的训练基准。其结构化存储的75个完整交互片段与9万余帧数据,显著推进了机器人动作泛化能力的研究进程,成为当前操作技能迁移研究的重要基础设施。
当前挑战
该数据集致力于解决机器人操作任务中动态环境下的动作规划与执行难题,其核心挑战在于高维连续动作空间与多模态感知数据的对齐问题。构建过程中面临传感器时序同步精度不足、机械臂轨迹噪声干扰,以及视觉视角遮挡导致的动作标注歧义等困难。此外,大规模视频数据压缩存储与实时动作映射的计算效率矛盾,亦成为影响算法部署效果的关键瓶颈。
常用场景
经典使用场景
在机器人操作领域,eval_record-pick-and-place-so101_ft-3ep数据集为机械臂抓取与放置任务提供了丰富的多模态交互数据。该数据集通过记录六自由度机械臂的关节位置、夹爪状态以及双视角视觉信息,构建了完整的动作-观测序列。研究人员能够利用这些时序数据训练端到端的模仿学习模型,使机器人能够从人类示范中学习精细的物体操控策略。
实际应用
在工业自动化场景中,该数据集支撑的算法可应用于物流分拣、精密装配等实际任务。基于数据驱动的控制策略能够适应不同物体的抓取姿态规划,提升生产线的柔性化程度。双视角视觉系统为复杂环境下的物体定位提供了冗余信息,显著提高了操作系统的鲁棒性和容错能力。
衍生相关工作
基于该数据集的特性,衍生出了多个重要的研究方向。在模仿学习领域,研究者开发了分层策略网络以处理长时序任务;在跨模态表示学习方面,涌现了视觉特征与运动轨迹的联合嵌入方法;此外,该数据集还促进了元强化学习在机器人操作中的探索,为快速适应新任务提供了基准平台。
以上内容由遇见数据集搜集并总结生成



