eval_multitask_smolvla
收藏Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/johannesschirrmeister/eval_multitask_smolvla
下载链接
链接失效反馈官方服务:
资源简介:
这是一个名为LeRobot的机器人数据集,包含机器人动作、状态以及两个视角的图像数据。数据集共有2个剧集,1014个帧,1个任务和4个视频,采用Apache-2.0许可。
创建时间:
2025-10-29
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 机器人技术
- 标签: LeRobot
- 创建工具: LeRobot (https://github.com/huggingface/lerobot)
数据集结构
- 总任务数: 1
- 总片段数: 2
- 总帧数: 1014
- 总视频数: 4
- 数据块数: 1
- 数据块大小: 1000
- 帧率: 30 fps
- 数据分割: 训练集 (0:2)
- 数据格式: Parquet
- 代码库版本: v2.1
- 机器人类型: so100_follower
数据特征
动作特征
- 数据类型: float32
- 形状: [6]
- 关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos
观测状态
- 数据类型: float32
- 形状: [6]
- 关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos
图像观测
顶部摄像头
- 数据类型: 视频
- 形状: [480, 640, 3]
- 视频规格:
- 高度: 480
- 宽度: 640
- 通道数: 3
- 帧率: 30 fps
- 编解码器: av1
- 像素格式: yuv420p
- 深度图: 否
- 音频: 无
腕部摄像头
- 数据类型: 视频
- 形状: [480, 640, 3]
- 视频规格:
- 高度: 480
- 宽度: 640
- 通道数: 3
- 帧率: 30 fps
- 编解码器: av1
- 像素格式: yuv420p
- 深度图: 否
- 音频: 无
索引特征
- 时间戳: float32, 形状 [1]
- 帧索引: int64, 形状 [1]
- 片段索引: int64, 形状 [1]
- 索引: int64, 形状 [1]
- 任务索引: int64, 形状 [1]
文件结构
- 数据文件路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
- 视频文件路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4
搜集汇总
数据集介绍

构建方式
在机器人技术领域,eval_multitask_smolvla数据集通过LeRobot平台系统构建,采用Apache 2.0许可协议。该数据集以SO100跟随机器人为载体,采集了2个完整任务片段,总计1014帧数据,并以30帧每秒的速率记录。数据以分块形式存储于Parquet文件中,每个块包含1000帧,确保了高效的数据管理与访问。
使用方法
研究人员可通过解析Parquet数据文件直接访问多维特征矩阵,利用动作轨迹与视觉观测的同步关系进行算法验证。数据集支持端到端的机器人策略学习,用户可基于帧索引重建任务序列,结合关节状态与双视角图像训练感知控制模型。其标准化格式便于集成至主流机器学习框架,适用于模仿学习与强化学习等研究场景。
背景与挑战
背景概述
eval_multitask_smolvla数据集作为机器人学习领域的新型基准数据集,由HuggingFace的LeRobot项目团队构建,采用Apache 2.0开源协议。该数据集聚焦于多任务机器人操作场景,通过集成六自由度机械臂的关节位置控制与多视角视觉感知数据,旨在推动机器人模仿学习与策略泛化能力的研究。其数据结构包含来自顶部和腕部摄像头的同步视频流,配合精确的动作状态记录,为复杂环境下的机器人行为建模提供了标准化实验平台。
当前挑战
在机器人操作任务领域,该数据集需应对高维连续动作空间与多模态感知融合的核心难题,尤其需解决从异构传感器数据中提取有效表征的挑战。构建过程中面临数据同步精度保障的困难,需确保机械臂关节轨迹与双视角视频流在30Hz采样率下的时序一致性;同时受限于小规模样本特性,仅包含2个完整任务序列,对模型泛化能力提出严峻考验,且原始数据标注信息缺失可能影响监督学习方法的有效性。
常用场景
经典使用场景
在机器人学习领域,eval_multitask_smolvla数据集通过整合多视角视觉观测与关节控制指令,为模仿学习算法提供了标准化测试平台。其包含的顶部与腕部摄像头视频流配合六自由度机械臂动作轨迹,能够有效模拟真实环境中的操作任务,特别适用于验证视觉-动作映射模型的泛化能力。
解决学术问题
该数据集显著缓解了机器人操作任务中样本效率低下的研究困境。通过提供结构化时空序列数据,支持研究者探索从原始像素到连续控制指令的端到端学习范式,解决了传统方法在复杂动态环境中表征学习不足的难题,为具身智能的感知-动作闭环研究奠定数据基础。
实际应用
工业自动化场景中,该数据集可直接用于训练精密装配机械臂的视觉伺服系统。其包含的关节位置控制信号与同步视觉反馈,能够指导机器人完成物料分拣、精细抓取等任务,在电子制造与物流分拣领域具有明确的工程落地价值。
数据集最近研究
最新研究方向
在机器人学习领域,eval_multitask_smolvla数据集正推动多模态感知与动作规划的融合研究。该数据集整合了关节状态数据与多视角视觉信息,为开发端到端强化学习模型提供了关键支撑。前沿探索聚焦于跨模态表征对齐技术,通过结合顶部与腕部摄像头流,提升机器人在动态环境中的任务泛化能力。随着开源社区对轻量化机器人数据需求的增长,这类资源正加速模仿学习与离线强化学习方法的实际部署,为工业自动化和服务机器人领域的自适应控制策略注入新动力。
以上内容由遇见数据集搜集并总结生成



