zonglin11/tomato_new1_v2
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/zonglin11/tomato_new1_v2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,包含机器人技术相关的数据。数据集包括45个片段,总计34038帧,涉及1个任务。数据以parquet文件格式存储,总大小为100MB,视频文件大小为200MB。数据集的特征包括机器人的动作(如肩部、肘部、腕部和夹持器的位置)、观察状态(与动作相同的关节位置)、来自正面和侧面的图像观察(480x640分辨率,30fps)、时间戳、帧索引、片段索引和任务索引。数据集适用于机器人控制和行为研究。
This dataset was created using LeRobot and contains robotics-related data. It includes 45 episodes, totaling 34,038 frames, and involves 1 task. The data is stored in parquet format with a total size of 100MB, and video files are 200MB. The dataset features include robot actions (e.g., positions of shoulder, elbow, wrist, and gripper), observation states (same joint positions as actions), image observations from front and side views (480x640 resolution, 30fps), timestamps, frame indices, episode indices, and task indices. The dataset is suitable for robotics control and behavior research.
提供机构:
zonglin11
搜集汇总
数据集介绍

构建方式
tomato_new1_v2数据集依托于LeRobot开源框架构建,旨在服务于机器人操作领域的模仿学习研究。数据采集自seeed_b601_dm_follower型机器人,共包含45个演示片段(episodes),总计34038帧时序数据,涵盖单任务场景。数据以Parquet格式存储于分块文件中,视频流则采用AV1编码的MP4格式,分别记录前端与侧方两个视角的视觉信息,分辨率均为480×640像素。每个样本不仅包含7维关节空间的动作指令(action)与状态观测(observation.state),还同步存储时间戳、帧索引、片段索引等元数据,便于后续的时序建模与轨迹重构。
使用方法
建议用户通过LeRobot库加载该数据集,利用其内置的DataLoader实现高效的批量化读取。首先,指定数据集路径与配置名称'default',即可自动索引所有Parquet文件与视频资源。在训练过程中,可依据'observation.images.front'与'observation.images.side'获取双视角图像,结合'action'张量作为监督信号构建端到端的策略网络。由于数据集已预定义特征名称与形状,用户无需额外解析原始数据,只需定义模型输入输出维度即可快速启动实验。对于视频模态,支持按需解码或预提取特征,以平衡存储开销与训练速度。推荐在机器人控制任务中,以单帧或多帧历史状态作为输入,预测未来动作序列,进而评估策略的泛化性能。
背景与挑战
背景概述
在机器人操作领域,模仿学习已成为一项关键技术,它允许机器人通过观察人类演示来掌握复杂的操纵技能。基于此背景,tomato_new1_v2数据集应运而生,其创建旨在为机器人精细化操作任务提供高质量的演示数据。该数据集由LeRobot社区维护,采用Apache-2.0许可协议,于近期发布,包含45个示范轨迹与逾34000帧数据,聚焦于单一任务场景。数据集详细记录了7自由度机械臂的关节动作与状态,同时配备了前置与侧方摄像头拍摄的640×480分辨率视频流,为视觉与动觉信息的联合建模提供了丰沛资源。这一公开数据集填补了低成本机器人平台在精细化操作研究方面的数据空白,为推动模仿学习算法在真实物理世界中的泛化能力奠定了基础。
当前挑战
当前数据集面临的核心挑战体现在两个层面。在领域问题层面,虽然tomato_new1_v2解决了机器人操作中从人类演示到行为克隆的基础映射难题,但单一任务(仅含1个任务类型)与有限轨迹(45条)限制了模型对多样化操作场景的泛化能力,机器人难以适应环境变化或物体位姿偏移。在构建过程中,数据采集依赖单台seeed_b601_dm_follower机械臂与人工演示,不仅耗时耗力,且难以保证演示策略的最优性与一致性。此外,多模态数据(图像与关节变量)的高频同步记录(30帧/秒)对硬件同步性要求严苛,任何微小的时延都可能引入累积误差,影响后续策略学习的准确性。这些挑战亟需通过扩大数据规模、引入多视角与多任务配置以及开发自动化标注流程来逐步克服。
常用场景
经典使用场景
在机器人模仿学习领域,tomato_new1_v2数据集为训练机器人执行精细操作任务提供了宝贵的基准资源。该数据集包含45个完整演示片段,涵盖34038帧高分辨率视频与动作状态序列,采用seeed_b601_dm_follower机器人平台,通过遥操作采集了番茄相关的操作演示。研究者常利用该数据集训练端到端的视觉运动策略,将前视与侧视摄像头捕捉的视觉观测映射为7维关节空间动作指令,从而实现机器人对目标物体的精准抓取与操控。数据集以标准化的LeRobot格式组织,便于研究人员快速复现代码并开展跨算法比较。
解决学术问题
该数据集有效解决了机器人操作研究中高质量演示数据稀缺的难题,为模仿学习算法提供了包含完整动作标签与多视角视觉输入的成对数据。传统方法依赖人工编程或强化学习中的稀疏奖励信号,而tomato_new1_v2使得研究者能够探索从人类演示中直接学习策略的范式,降低了机器人技能获取的样本复杂度。数据集统一了机器人位姿表达与数据存储格式,消除了不同研究团队在数据处理环节的重复劳动,推动了行为克隆、逆强化学习等算法的复现与改进,为探索机器人泛化能力与鲁棒性奠定了数据基础。
实际应用
在实际应用层面,该数据集驱动了农业采摘机器人、厨房服务机器人等自动化操作系统的技术落地。基于数据集训练的视觉运动策略,可部署于实体机器人完成番茄等果实的识别、定位与无损摘取,替代重复性人工劳动。数据集包含的前视与侧视多视角信息增强了模型对光照变化和遮挡场景的适应能力,使机器人能够在非结构化环境中保持稳健操作。相关技术还可迁移至实验室自动化、精密装配等工业场景,加速机器人在柔性制造中的部署进程。
数据集最近研究
最新研究方向
面对机器人学领域对标准化、高质量示范数据日益增长的需求,tomato_new1_v2数据集应运而生,成为推动双臂协作机器人操作技能学习的重要资源。当前前沿研究方向聚焦于利用视觉-动作联合建模,将高保真度操作视频与多自由度关节状态序列深度融合,以训练具备泛化能力的模仿学习与强化学习模型。该数据集所采用的LeRobot框架,借助元数据驱动的轨迹分块机制,为大规模多任务数据集的高效组织与复用开辟了新范式。其包含的双视角视觉流(front与side)更是为在非结构化环境中实现稳健的精细化操作任务——如柔性物体抓取或复杂装配——提供了关键的感知基础,对加速具身智能从仿真环境向真实场景的迁移具有深远影响。
以上内容由遇见数据集搜集并总结生成



