task_2
收藏Hugging Face2026-05-11 更新2026-05-12 收录
下载链接:
https://huggingface.co/datasets/push-that-thing/task_2
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot项目创建,用于机器人学研究,是一个机器人操作数据集,包含多模态时序数据。数据集总计有187个训练片段和131,059个数据帧,以Parquet文件格式存储,并关联有30fps帧率的MP4视频文件。核心特征包括:1) 机器人的动作指令,为6维浮点数向量,控制肩部平移、肩部升降、肘部弯曲、腕部弯曲、腕部旋转和夹爪位置;2) 机器人的状态观测,同样是6维浮点数向量,反映关节实时位置;3) 来自前置摄像头的视觉观测,为480x640像素的RGB视频流;4) 时序与索引信息,包括时间戳、帧索引、片段索引和任务索引。该数据集适用于机器人模仿学习、视觉运动策略学习或行为克隆等任务,旨在训练机器人基于视觉和状态观测生成关节控制动作。数据集遵循Apache 2.0许可证。
This dataset is created by the LeRobot project for robotics research, serving as a robot manipulation dataset containing multimodal time-series data. It includes a total of 187 training episodes and 131,059 data frames, stored in Parquet format with associated MP4 video files at 30fps. Key features include: 1) Robot action commands, represented as a 6-dimensional floating-point vector controlling shoulder translation, shoulder elevation, elbow flexion, wrist flexion, wrist rotation, and gripper position; 2) Robot state observations, also a 6-dimensional floating-point vector reflecting real-time joint positions; 3) Visual observations from a front-facing camera, providing RGB video streams at 480x640 pixels; 4) Temporal and index information, including timestamps, frame indices, episode indices, and task indices. The dataset is suitable for tasks such as robot imitation learning, visuomotor policy learning, or behavior cloning, aiming to train robots to generate joint control actions based on visual and state observations. It is licensed under Apache 2.0.
创建时间:
2026-05-08
原始信息汇总
数据集概述
数据集结构
- 编码版本:v3.0
- 机器人类型:so_follower
- 总片段数:187
- 总帧数:131,059
- 任务数量:1
- 数据块大小:1,000
- 数据文件大小:100 MB
- 视频文件大小:200 MB
- 帧率:30 FPS
- 数据分割:仅训练集(所有 0 到 187 个片段)
数据特征
| 特征名称 | 数据类型 | 形状 | 描述 |
|---|---|---|---|
| action | float32 | (6,) | 包含肩部旋转、肩部升降、肘部弯曲、腕部弯曲、腕部滚动、夹爪位置等 6 个动作维度 |
| observation.state | float32 | (6,) | 与 action 相同的 6 个状态维度(肩部、肘部、腕部、夹爪位置) |
| observation.images.front | video | (480, 640, 3) | 前置摄像头视频数据,分辨率 480x640,3 通道,编码格式 AV1,帧率 30 FPS,无音频 |
| timestamp | float32 | (1,) | 时间戳 |
| frame_index | int64 | (1,) | 帧索引 |
| episode_index | int64 | (1,) | 片段索引 |
| index | int64 | (1,) | 索引 |
| task_index | int64 | (1,) | 任务索引 |
数据文件路径
- 数据文件:存储为 Parquet 格式,路径模式为
data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet - 视频文件:存储为 MP4 格式,路径模式为
videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
搜集汇总
数据集介绍

构建方式
机器人操作任务的模仿学习依赖于高质量、结构化的行为数据以驱动策略的泛化。该数据集通过LeRobot框架采集自so_follower型机器人,聚焦于特定推拉操作任务,共收录187条完整演示轨迹,涵盖131059帧时序数据。每个演示以30帧/秒的采样频率记录,并按照1000帧为块进行切分存储,最终划分为单一训练集。数据文件采用Parquet格式压缩保存,同时将视觉观测编码为AV1格式视频,确保了高效存取与视觉信息的保真度。
特点
数据集具备多模态与精细化的特征构成。动作与状态空间均包含6维关节指令,涵盖肩部、肘部、腕部及夹爪的位姿控制,使数据同时服务于正向模仿与逆向运动学建模。视觉观测提供480×640像素的前置摄像头RGB影像,以30帧/秒的动态流捕捉操作场景。此外,数据集记录了帧索引、时间戳和任务标签,便于研究者对时序片段进行精准定位与重组,在非结构化环境中维护演示数据的时空连贯性。
使用方法
该数据集深度集成于LeRobot生态体系,支持通过其可视化工具直接浏览演示轨迹,加速对数据质量的评估。开发中可借助LeRobot的DataLoader加载Parquet与视频文件,将动作序列和视觉流对齐后用于端到端策略训练,如行为克隆或扩散策略。由于数据已按Chunk机制分块,研究者在处理长序列时可灵活指定索引范围,避免内存溢出。基于统一的特征命名规范,该数据集还便于与其他LeRobot格式数据融合,拓展任务库的规模与多样性。
背景与挑战
背景概述
任务二(task_2)数据集诞生于机器人学习领域对精细化操控行为建模需求的浪潮之中,由Hugging Face主导的LeRobot社区于近期创建,旨在为机器人从示范中学习(Learning from Demonstration)提供标准化数据支撑。该数据集聚焦于“推动物体”这一具体物理交互任务,依托so_follower型机器人平台,通过187个示范片段与逾13万帧高保真观测(含6自由度关节状态和640×480分辨率视觉信号),构建了从状态空间到动作空间的完整映射。作为LeRobot生态的组成部分,它推动了模仿学习与离线强化学习基准的统一,降低了机器人数据获取门槛,为多任务泛化与精细操控研究提供了可复现的实证基础。
当前挑战
当前挑战集中于多维度瓶颈:其一,机器人操控领域面临技能泛化与状态抽象困境,单任务数据集(仅“推动物体”一个任务)难以支撑跨场景迁移学习,模型需在有限示范中捕获因果不变性;其二,构建过程中,6自由度关节序列与视觉流在30Hz高频下需严格时空同步,隐含时序错位与标注噪声风险;其三,涉及高维连续动作空间(6维浮点向量),示范数据需在低延迟条件下兼顾运动平滑性与任务完成鲁棒性,这对数据采集的精度与覆盖度提出了严苛要求。
常用场景
经典使用场景
在机器人学习领域中,task_2数据集专为灵巧操作任务而设计,聚焦于机械臂对目标物体进行精准推动的操作序列。该数据集包含187条示范轨迹,每条轨迹均以30帧每秒的速率记录,涵盖六维度关节空间的动作指令与状态观测,并通过前视摄像头捕获高清视觉信息。经典的建模场景是将此数据集用于模仿学习,即利用专家演示数据训练神经网络,使机器人能够理解环境状态与动作之间的映射关系,进而自主完成相似推动任务。基于此,研究者可开展行为克隆、逆强化学习或生成式模仿等方法的实验与比较。
解决学术问题
该数据集的核心价值在于为机器人操作领域的学术研究提供了高质量的基准数据,有效解决了从人类演示中学习精细化操作技能的难题。通过提供对齐的状态-动作对及多模态观测信息,task_2助力研究人员攻克模仿学习中的协变量偏移问题,推动算法在未见状态下保持泛化能力。同时,其标准化的数据结构和公开的元信息规范,促进了不同研究方法之间的可重复性比较,成为验证新型鲁棒控制策略、探索动态环境下操作稳定性的重要基石,对理解机器人从示范中抽象操作意图的机制具有深远意义。
衍生相关工作
该数据集的诞生催生了一系列相关研究工作,其中最具代表性的是基于LeRobot框架的算法验证工作,如使用Diffusion Policy或ACT(Action Chunking with Transformers)进行端到端模仿学习,利用task_2的时序和视觉特征生成平滑操作动作。此外,研究者由此拓展出跨物体材质推动的泛化挑战数据集,以及融合触觉模态的多模态感知数据集。还有工作以task_2为测试床,探索少样本学习在机器人操作中的应用,通过结合预训练模型与少量微调数据,实现对新物体类型的快速适应。这些衍生工作共同丰富了机器人学习领域的实证基础,推动了理论与实践的良性循环。
以上内容由遇见数据集搜集并总结生成



