zonglin11/tomato_new1
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/zonglin11/tomato_new1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,与机器人技术相关。包含50个episodes,总计38,369帧数据。数据集包含多种特征,如动作数据、观察状态以及来自正面和侧面视角的图像。数据以parquet文件格式存储,并包含具有特定元数据的视频文件。
This dataset was created using LeRobot and is related to robotics. It contains 50 episodes with a total of 38,369 frames. The dataset includes various features such as action data, observation states, and images from front and side views. The data is stored in parquet files and includes video files with specific metadata.
提供机构:
zonglin11
搜集汇总
数据集介绍

构建方式
tomato_new1数据集基于LeRobot框架构建,旨在服务于机器人学习领域。该数据集通过操控seeed_b601_dm_follower型机器人执行单一任务,记录了50个完整回合(episode)的数据,总计38369帧,数据与视频文件分别以parquet和MP4格式存储。数据采集频率为30帧每秒,涵盖了机器人7个关节(如肩部、肘部、腕部及夹爪)的位置信息,并以动作(action)和观察状态(observation.state)两种形式呈现,便于模型学习行为策略。
特点
该数据集的一个显著特点是其多模态特性,不仅包含机器人关节的数值状态数据,还集成了前向与侧向两个视角的视觉图像,图像分辨率为480×640像素,采用AV1编码以平衡质量与存储效率。此外,数据集结构清晰,每帧均附有时间戳、帧索引、回合索引等元信息,支持精确的时间序列分析。全部50个回合均划归为训练集,无测试集分割,专注于单一任务场景下的密集采样。
使用方法
用户可通过LeRobot库便捷地加载与使用该数据集。推荐利用Hugging Face的datasets库,结合LeRobot提供的API,直接读取parquet文件获取时间序列数据,并同步加载对应视角的MP4视频帧。数据集支持按回合或按帧索引进行访问,适合用于模仿学习(imitation learning)或行为克隆(behavioral cloning)等机器人学习任务的模型训练与评估。Apache-2.0许可协议确保了广泛使用的灵活性。
背景与挑战
背景概述
在机器人学习领域,模仿学习与遥操作数据的获取是推动具身智能发展的关键瓶颈。tomato_new1数据集于近期发布,依托Hugging Face的LeRobot框架构建,由采用seeed_b601_dm_follower型机器人的研究团队创建,旨在为机器人操作任务提供高质量的示范数据。该数据集聚焦于单一的精细化操作任务,包含50个完整演示片段,共计38369帧时序数据,并同步采集了7维关节空间状态与动作序列,以及前视和侧视双视角的30fps高清视频。通过提供标准化的动作-视觉对齐数据,该数据集为机器人控制策略的迁移学习与离线强化学习研究提供了宝贵的基准资源,在推动低成本机器人平台的通用操作能力探索上具有积极意义。
当前挑战
该数据集所解决的领域核心挑战在于:如何通过有限的演示数据,使机器人习得鲁棒且可泛化的操作技能。具体而言,任务空间的高维连续性与现实环境的物理变异性导致模型难以从50个演示片段中提取普适策略,易发生过拟合。构建过程中的挑战同样严峻:遥操作采集时需同步校准七自由度关节空间与双视角视觉信号,确保时序对齐精度;同时,在200MB视频数据中压缩存储AV1编码的高画质画面,需平衡数据保真度与存储效率。此外,仅有单一任务类型的数据配置,使得跨任务迁移与多场景适配面临严峻考验,如何基于此类小规模数据集构建兼具稳定性和灵活性的控制策略,仍是后续研究的核心难点。
常用场景
经典使用场景
在机器人学习领域,tomato_new1数据集凭借其源自真实机械臂操作的高保真轨迹数据,成为模仿学习与行为克隆研究的理想基石。该数据集记录了Seeed B601 DM Follower机器人执行单任务场景的完整过程,包含50个episode、逾38000帧的关节空间动作指令(涵盖7个自由度)及多视角视觉观测。研究人员可借此进行端到端策略训练,利用前向与侧向摄像头采集的高清视觉流,结合关节角度与力矩信息,构建从感知到动作的映射模型。其结构化的parquet格式与标准化视频编码极大降低了预处理门槛,尤其适用于验证基于扩散策略或Transformer架构的机器人操控算法。
解决学术问题
本数据集直面机器人领域长期存在的数据稀缺性困境,为探索少样本模仿学习、策略泛化性及动作精度的关键学术问题提供了标准化支持。通过提供高频率(30 FPS)且时序对齐的状态-动作对,研究者得以量化分析轨迹分布偏移对策略迁移的影响,并深入探讨观测噪声、动作平滑性等因子在操控任务中的交互机制。该数据集的公开释放有效推动了基于LeRobot框架的可复现研究范式,使得对比不同策略优化方法(如行为克隆与逆强化学习)的效能差异成为可能,为构建鲁棒的机器人运动基元库奠定了数据基础。
衍生相关工作
该数据集的发布催生了一系列围绕低维状态空间与高维视觉融合的策略网络研究工作,经典衍生方向包括基于扩散模型的轨迹生成、基于Transformer的时序预测器以及视觉-运动联合表征学习。研究者常以此为基础,扩展至多任务连续学习场景,或结合数据增强技术(如视角裁剪、动力学随机化)提升策略的泛化能力。后续工作还关注到拆解行为片段并重组以合成新轨迹的算法探索,以及利用隐式空间建模实现跨工况迁移的尝试,这些成果共同构筑了从专用数据集到通用操控基座模型的知识演进脉络。
以上内容由遇见数据集搜集并总结生成



