five

Lisette1231/20260425_pickthebreadintotheplate1

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/Lisette1231/20260425_pickthebreadintotheplate1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由LeRobot项目创建,主要用于机器人技术领域。数据集包含10个总片段,5013帧,1个总任务,数据文件大小为100MB,视频文件大小为200MB,帧率为30fps。数据集的特征包括动作(如肩部、肘部、手腕等的位置)、观察状态(与动作类似)、图像(手腕和前方的视频,分辨率为480x640,3通道)、补充信息(如策略动作、是否干预等)以及其他元数据(如时间戳、帧索引、任务索引等)。数据集的结构信息非常详细,但具体应用场景和论文信息未提及。

This dataset was created using the LeRobot project and is primarily used in the field of robotics. The dataset includes a total of 10 episodes, 5013 frames, and 1 task. The data files size is 100MB, and the video files size is 200MB, with a frame rate of 30fps. The dataset features include actions (e.g., positions of shoulder, elbow, wrist, etc.), observation states (similar to actions), images (videos from wrist and front views, resolution 480x640, 3 channels), complementary information (e.g., policy actions, intervention status, etc.), and other metadata (e.g., timestamp, frame index, task index, etc.). The dataset structure is very detailed, but specific application scenarios and paper information are not mentioned.
提供机构:
Lisette1231
搜集汇总
数据集介绍
main_image_url
构建方式
在机器人操作领域,模仿学习依赖高质量示范数据驱动策略网络。该数据集‘20260425_pickthebreadintotheplate1’基于LeRobot框架构建,使用seeed_b601_dm_follower型机械臂采集十段完整操作轨迹,总计5013帧,覆盖将面包放置于餐盘的单任务场景。数据以Parquet文件分块存储,按1000帧为一个chunk,高效管理时序数据。同时,腕部与前方摄像头以30帧/秒、480×640分辨率录制AV1编码视频,记录环境与末端视角信息,为多模态策略学习提供丰富视觉输入。
特点
数据集具备结构化与完备性两大特点。动作与观测状态均包含七维关节位置(含夹爪),确保机器人的运动描述精细统一。除基础占位外,还记录策略动作、干预标记及任务状态等辅助信息,便于分析人工示教与自动策略的偏差。所有时间戳、帧索引与任务标签整齐排列,支撑时序对齐与片段截取。100MB的表格文件与200MB的视频数据体现了轻量化设计,平衡了样本量级与存储效率。
使用方法
借助LeRobot库可快速加载数据集。用户需指定路径,通过其API读取Parquet表格和MP4视频,直接获得‘动作序列’、‘观测图像帧’与‘状态向量’。典型使用场景包括行为克隆或扩散策略训练:将图像与关节角连接为输入,以动作为监督信号。训练时可按episode迭代或随机采样连续片段;数据集已预设训练/测试划分(10:0),可直接用于单任务模仿学习研究。
背景与挑战
背景概述
该数据集专为机器人操控任务而构建,聚焦于“将面包夹入盘子”这一精细操作场景。数据集创建于2025年,依托LeRobot开源框架,由Hugging Face及相关研究机构联合推动,旨在为模仿学习与深度强化学习提供标准化、可复现的基准数据。核心研究问题在于评估机器人对多自由度机械臂(如Seeed B601 DM Follower)在视觉引导下的柔性抓取与放置能力。数据集包含10个完整episode、超过5000帧的高频(30 FPS)视觉与运动状态记录,涵盖腕部与前方双视角视频及7维关节空间动作,为机器人操作技能泛化研究奠定了重要基础。其影响力主要体现在为低样本数下的机器人任务学习提供了高质量的真实演示数据,推动了机器人从仿真环境向真实场景迁移的实证研究。
当前挑战
该数据集所解决的领域问题聚焦于机器人精细操控中的视觉-运动协调挑战,尤其是在有限演示样本(仅10个episode)下如何实现稳定的物体转移与放置策略。构建过程面临的技术挑战包括:多模态数据(动作序列、关节状态、视频流)的精准同步与高一致性标注;在40×30厘米的有限工作空间内,保证机械臂不与环境发生碰撞的同时完成抓取动作;以及从高帧率视频中提取有效视觉特征以支撑策略学习。此外,数据采集依赖于人工遥操作或干预示范,引入的噪声与不完美轨迹增加了模型泛化的难度,如何权衡干预频率与演示质量亦是关键难点。
常用场景
经典使用场景
在机器人学习与模仿学习领域,20260425_pickthebreadintotheplate1数据集为“将面包放入盘中”这一精细操作任务提供了标准化训练与评估基准。该数据集涵盖了7自由度机械臂(Seeed B601 DM Follower)在10个演示回合中的运动轨迹、关节状态、手腕与前方的视觉观测数据,以及政策动作和干预信息。研究者可借此数据集训练基于行为克隆、逆强化学习或离线强化学习的操作策略,尤其适合验证从像素到动作的端到端控制模型在刚性物体抓取与精准放置任务上的泛化能力。数据集以30Hz频率采集的高清视频(AV1编码)与高维关节状态耦合,为多模态融合感知与多步规划实验提供了高质量样本。
实际应用
在实际工业与家庭服务场景中,该数据集直接服务于流水线上物料的拾取与码垛、厨房内食品的分类装箱等重复性抓取放置任务。通过基于此数据集训练的策略模型,机器人能借助单目或腕部摄像头实时感知面包位置与姿态,并生成柔顺的七轴运动指令,完成从工作台到目标容器的精确转移。此外,数据集中包含的差异化的初始状态与干预动作,使得模型可迁移至部分遮挡、光照变化或物体微移等扰动场景,从而支撑起智能仓储分拣、病人陪护餐配发等非标环境的自动化部署。该数据集与LeRobot框架的天然兼容性进一步简化了从仿真到真实机器人的部署流程。
衍生相关工作
围绕此数据集衍生出多项经典工作:一方面,基于行为克隆与扩散策略的端到端操作模型(如模仿学习中的CNN-LSTM或Transformer架构)利用其中视觉-动作对进行预训练,并在真实机器人上实现零样本微调;另一方面,研究者结合离线强化学习算法(如IQL、CQL)对策略做保守约束,有效缓解了演示数据分布外推时的动作越界问题。此外,数据集的多视角视觉特性催生了基于大语言模型的视觉-语言-动作联合推理研究,例如通过解析腕部与前方图像来生成鲁棒的抓取姿态。最后,其开放的元信息结构(含干预标记与状态标志)为离线策略评估、奖励函数逆向工程以及多任务元学习实验提供了标准化的评测平台。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作