five

full_featured

收藏
Hugging Face2026-05-31 更新2026-06-01 收录
下载链接:
https://huggingface.co/datasets/naavox/full_featured
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由LeRobot平台创建,是一个用于机器人技术研究的开源数据集。数据集记录了机器人执行任务过程中的多模态交互数据,包含68个完整任务片段(episodes),共计75,257帧数据,覆盖26种不同的任务类型。数据以Parquet文件格式存储,总数据文件大小为100MB,视频文件大小为200MB。数据集包含丰富的特征字段:动作空间(action)包含5维浮点向量,表示机器人在x、y、z方向的速度以及手腕和手指的运动速度;观测状态(observation.state)是一个43维浮点向量,详细记录了机器人的状态信息,包括夹爪位置与旋转、传感器读数(激光测距、手指压力、张力等)、目标物体相对位置(如障碍物、玩具箱、垃圾桶等)以及视觉定位坐标;图像观测(observation.images)提供三个摄像头的视频流:一个夹爪摄像头(分辨率384×384)和两个锚定摄像头(分辨率均为544×960),所有视频均为30fps的RGB格式。此外,数据集还包含时间戳、帧索引、episode索引和任务索引等元数据。该数据集适用于机器人模仿学习、强化学习、多模态感知与控制等研究任务,仅提供训练集划分,采用Apache 2.0开源许可证。

This open-source dataset was created by the LeRobot platform and tailored for robotics research. It records multimodal interaction data during robot task execution, consisting of 68 complete task episodes totaling 75,257 frames, covering 26 distinct task types. The data is stored in Parquet file format, with a total data file size of 100 MB and a total video file size of 200 MB. The dataset includes rich feature fields: the action space (action) is a 5-dimensional floating-point vector representing the robot's velocities in the x, y, and z directions, as well as the movement speeds of the wrist and fingers; the observation state (observation.state) is a 43-dimensional floating-point vector that comprehensively records the robot's status information, including gripper position and rotation, sensor readings such as laser rangefinder data, finger pressure, tension, etc., relative positions of target objects (e.g., obstacles, toy boxes, trash cans, etc.), and visual positioning coordinates. The image observations (observation.images) provide video streams from three cameras: one wrist-mounted gripper camera with a resolution of 384×384 and two fixed anchor cameras both with a resolution of 544×960, with all videos being in 30fps RGB format. In addition, the dataset also includes metadata such as timestamps, frame indices, episode indices, and task indices. This dataset is applicable to research tasks such as robot imitation learning, reinforcement learning, multimodal perception and control, and only provides a training set split, and is licensed under the Apache 2.0 open-source license.
创建时间:
2026-05-28
原始信息汇总
  • 许可证: Apache-2.0
  • 任务类别: 机器人学 (robotics)
  • 标签: LeRobot
  • 数据集来源: 使用 LeRobot 创建

数据集描述

  • 机器人类型: stringman
  • 总片段数 (episodes): 68
  • 总帧数 (frames): 75,257
  • 总任务数 (tasks): 26
  • 块大小 (chunks_size): 1000
  • 数据文件大小: 100 MB
  • 视频文件大小: 200 MB
  • 帧率 (FPS): 30
  • 训练/测试划分: 全部 68 个片段用于训练 (splits: {"train": "0:68"})

数据特征 (Features)

动作 (action)

  • 数据类型: float32
  • 形状: [5]
  • 字段名称: vel_x, vel_y, vel_z, wrist_speed, finger_speed

观测状态 (observation.state)

  • 数据类型: float32
  • 形状: [43]
  • 包含:
    • 速度: vel_x, vel_y, vel_z
    • 腕部/手指: wrist_speed, finger_speed, gripper_pos_x, gripper_pos_y, gripper_pos_z, gripper_rot_0..gripper_rot_5, finger_angle, finger_pressure, wrist_angle
    • 传感器: laser_rangefinder, target_force
    • 物体方位: hamper_bearing, hamper_distance, toybox_bearing, toybox_distance, trashcan_bearing, trashcan_distance, gamepad_bearing, gamepad_distance, parking_location_bearing, parking_location_distance
    • 控制状态: swing_cancellation_on, tension_0..tension_3
    • 位置坐标: gantry_position_x, gantry_position_y, gantry_position_z, visual_pos_x, visual_pos_y, visual_pos_z, hang_pos_x, hang_pos_y, hang_pos_z

观测图像 (observation.images)

  • 夹爪相机 (gripper_camera):
    • 数据类型: video
    • 分辨率: 384 x 384
    • 编码: AV1, 30 FPS, 3 通道
  • 锚点相机1 (anchor_camera_1):
    • 数据类型: video
    • 分辨率: 544 x 960
    • 编码: AV1, 30 FPS, 3 通道
  • 锚点相机2 (anchor_camera_2):
    • 数据类型: video
    • 分辨率: 544 x 960
    • 编码: AV1, 30 FPS, 3 通道

其他特征

  • timestamp: float32, 形状 [1]
  • frame_index: int64, 形状 [1]
  • episode_index: int64, 形状 [1]
  • index: int64, 形状 [1]
  • task_index: int64, 形状 [1]
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集依托于LeRobot框架构建,源自机器人操作领域的实际应用场景。数据采集通过操控名为“stringman”的机器人平台完成,涵盖68个完整任务回合,累计75,257帧时序数据,涉及26种差异化任务。数据以Parquet格式存储于分块文件中,每块包含1,000帧,视频文件则采用AV1编码压缩,形成动作与观测状态的高度同步序列。训练集与全部数据重合,未有显式划分验证集,确保了样本的完整性和连续性。
特点
数据集的一大亮点在于其多模态、高维度的观测空间。动作指令为5维向量,涵盖线速度、腕部及手指运动速度;而状态观测则高达43维,集成了机械臂位姿、激光测距仪、压力传感器、轴承与距离信息等多源传感数据。视觉模态包含三路摄像头图像,其中腕部相机为384×384像素,双锚点相机分辨率达960×544像素,共同提供丰富的环境感知能力。数据帧率稳定在30 FPS,时序信息完整,利于动态建模。
使用方法
用户可通过LeRobot库便捷地加载与处理此数据集。默认配置指向Parquet分块文件和视频路径,利用框架内置的数据集可视化工具可直接在Hugging Face Spaces中浏览样本。训练时,建议根据任务索引与回合索引筛选特定子集,并借助特征结构中的动作与观测字段构建端到端模仿学习或强化学习模型。视频流可通过指定相机键值进行重放,支持多视角联合训练与评估,适用于机器人技能泛化研究。
背景与挑战
背景概述
该数据集由Hugging Face团队利用LeRobot框架创建,专注于机器人操作领域,旨在为机械臂的精细操控提供大规模、多模态的行为数据。数据集收录了68个完整任务片段,总计超过75,000帧高频率(30 FPS)的观测数据,涵盖多视角摄像机图像(分辨率最高达960×544)与43维状态变量,包括末端执行器位姿、关节角度、力传感器读数及环境感知信息。作为机器人模仿学习与强化学习研究的基础资源,它为研究者探索从视觉输入到动作输出的端到端映射提供了标准化的训练与评估平台。
当前挑战
该数据集的核心挑战在于机器人操作任务的复杂性与数据分布的高维度特性。具体而言,动作空间包含5个控制自由度,而状态空间高达43维,涵盖线性速度、关节角度、触觉反馈与环境信号,这要求模型具备跨模态推理与动态环境适应能力。同时,数据集构建面临任务多样性与物理仿真实时性的矛盾:仅68个片段需覆盖26种不同任务,且每个片段需同步记录三路摄像机的视频流、力传感器读数与机器人运动状态,这对数据采集系统的时间同步精度与存储效率提出了极高要求。此外,Apache-2.0许可下的开放共享策略虽然促进了学术合作,但也需应对不同机器人平台间数据迁移的泛化性挑战。
常用场景
经典使用场景
在机器人学习领域,full_featured数据集凭借其多模态感知与动作标签的深度融合,成为训练端到端操控策略的基石。该数据集收录了68段涵盖26种精细任务的示范轨迹,通过高帧率视频流(30 FPS)与43维状态向量(涵盖关节位置、力传感、视觉定位等参数)的同步记录,为模仿学习与行为克隆提供了丰富的时空对齐样本。研究者常利用其结构化动作空间(5维速度指令)与多视角图像输入(包括384×384的夹爪相机及960×544的全局锚定相机),构建从像素到扭矩的映射模型,尤其适用于复杂抓取、装配及移动操作等需要多传感器融合的场景。
实际应用
在实际部署中,full_featured数据集为灵巧操作系统的预训练提供了关键数据基础。其多视角视频与精确力控记录的组合,可直接用于训练工业机械臂的抓取规划模块,特别是在易碎品处理、精密组装等需要触觉反馈的场景。依托LeRobot工具链,该数据集已集成至仿真到实的迁移流程,使模型能在虚拟环境中预训练后,快速适配至Stringman等真实机械平台。同时,其包含的激光测距与定位特征(如垃圾桶、游戏手柄的方位角数据)在物流分拣、家庭服务机器人等动态环境中展现出重要价值,显著缩短了自主导航与抓取结合的任务部署周期。
衍生相关工作
基于该数据集,学术界已衍生出多个经典工作方向。在算法层面,研究者利用其多模态特性开发了时序对比学习框架,通过跨视角特征融合提升策略泛化能力;基于其力觉信号,催生了阻抗控制与安全约束策略的评估基准。在架构创新上,有工作运用其长序列数据验证了Transformer-based策略在非马尔可夫环境下的决策优势,并公开了轻量级视频压缩管道(AV1编码)。此外,数据集的公开版本促进了跨实验室的复现研究,其中关于动作残差学习与目标条件化价值函数的改进方法已在ICRA、CoRL等顶会发表,形成了围绕灵巧操控数据驱动的知识图谱。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作