so101-algebra
收藏Hugging Face2026-03-28 更新2026-03-29 收录
下载链接:
https://huggingface.co/datasets/aivanni/so101-algebra
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由LeRobot创建,主要用于机器人技术领域。数据集采用Apache-2.0许可证,包含30个任务片段,总计31745帧数据。数据以parquet文件格式存储,总数据量为100MB,视频文件大小为200MB。数据集包含多种特征字段,包括动作数据(6个关节位置)、观察状态(6个关节位置)、手腕和前方摄像头图像(480x640分辨率,3通道,30fps)、时间戳、帧索引、片段索引、索引和任务索引。视频文件采用AV1编解码器,YUV420p像素格式,无音频。数据集适用于机器人控制、行为模仿等任务。
创建时间:
2026-03-27
原始信息汇总
数据集概述
基本信息
- 数据集名称: so101-algebra
- 创建工具: LeRobot (https://github.com/huggingface/lerobot)
- 许可证: Apache-2.0
- 任务类别: 机器人学
- 标签: LeRobot
数据集规模
- 总情节数: 30
- 总帧数: 31745
- 总任务数: 1
- 数据分块大小: 1000
- 数据文件总大小: 100 MB
- 视频文件总大小: 200 MB
- 帧率: 30 FPS
- 数据划分: 训练集 (0:30)
数据结构
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
数据特征
-
action
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
-
observation.state
- 数据类型: float32
- 形状: [6]
- 名称: shoulder_pan.pos, shoulder_lift.pos, elbow_flex.pos, wrist_flex.pos, wrist_roll.pos, gripper.pos
-
observation.images.wrist
- 数据类型: video
- 形状: [480, 640, 3]
- 视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 通道数: 3
- 无音频
-
observation.images.front
- 数据类型: video
- 形状: [480, 640, 3]
- 视频信息:
- 高度: 480
- 宽度: 640
- 编解码器: av1
- 像素格式: yuv420p
- 非深度图
- 帧率: 30
- 通道数: 3
- 无音频
-
timestamp
- 数据类型: float32
- 形状: [1]
-
frame_index
- 数据类型: int64
- 形状: [1]
-
episode_index
- 数据类型: int64
- 形状: [1]
-
index
- 数据类型: int64
- 形状: [1]
-
task_index
- 数据类型: int64
- 形状: [1]
可视化
- 可视化空间: https://huggingface.co/spaces/lerobot/visualize_dataset?path=aivanni/so101-algebra
引用信息
- 主页: [More Information Needed]
- 论文: [More Information Needed]
- BibTeX引用: [More Information Needed]
搜集汇总
数据集介绍

构建方式
在机器人学领域,数据集的构建往往依赖于真实的物理交互过程。so101-algebra数据集通过LeRobot平台采集,记录了30个完整的操作任务,每个任务以30帧每秒的速率捕捉了机械臂的运动轨迹。数据以分块形式存储于Parquet文件中,每块包含1000帧,总计31745帧,涵盖了机械臂的关节位置、夹爪状态以及来自腕部和前部摄像头的视觉信息。这种结构化的采集方式确保了数据在时序上的一致性,为后续的模型训练提供了高质量的原始素材。
特点
该数据集的特点在于其多模态的数据融合,不仅包含了六自由度机械臂的精确动作指令和状态反馈,还整合了双视角的高清视频流。视频数据采用AV1编码,分辨率达到640x480,以30帧每秒的速率记录,确保了视觉信息的丰富性与实时性。数据集中所有特征均以浮点或整型格式规范存储,便于直接用于深度学习模型的输入。此外,数据集通过时间戳、帧索引和任务索引实现了精细的时序对齐,为机器人模仿学习与行为克隆研究提供了坚实的实验基础。
使用方法
使用so101-algebra数据集时,研究人员可通过HuggingFace平台直接加载Parquet格式的数据文件,利用其预定义的特征结构进行模型训练。数据集适用于机器人模仿学习、视觉运动策略优化等任务,用户可依据帧索引或任务索引提取特定的动作-观察对。视觉数据以视频文件形式存储,支持逐帧解码与分析。结合LeRobot提供的可视化工具,研究者能够直观地审视机械臂的运动轨迹与视觉场景,进而设计并验证各类控制算法与感知模型。
背景与挑战
背景概述
在机器人学习领域,模仿学习作为实现智能体自主操作的关键范式,其发展依赖于高质量、结构化的示范数据集。so101-algebra数据集应运而生,由LeRobot研究团队基于其开源平台构建,专注于解决机器人模仿学习中的动作序列生成与状态观测问题。该数据集收录了30个完整任务片段,涵盖超过三万帧的多模态数据,包括机械臂的关节位置状态、前视与腕部摄像头视频流,以及精确的时间戳索引。其核心研究目标在于为机器人模仿学习算法提供丰富的训练与评估基准,推动从视觉感知到动作执行的端到端策略学习,对提升机器人在非结构化环境中的适应性与操作精度具有重要价值。
当前挑战
so101-algebra数据集旨在应对机器人模仿学习中动作预测与状态估计的复杂挑战,其核心问题在于如何从高维视觉观测中稳健地推断出连续、精确的关节控制指令。构建过程中面临多重困难:多模态数据的同步与对齐需确保视频流与机械臂状态在时间维度上的一致性;大规模视频数据的存储与高效读取要求设计紧凑的编码格式与分块策略;示范动作的多样性与覆盖度有限,仅包含单一任务类型,可能制约模型的泛化能力;此外,数据采集环境的动态变化与传感器噪声也为构建纯净、可靠的示范轨迹带来额外挑战。
常用场景
经典使用场景
在机器人学习领域,so101-algebra数据集以其丰富的多模态数据,为模仿学习与行为克隆研究提供了经典范例。该数据集通过记录机械臂在代数任务中的关节位置、视觉图像与时间序列信息,使得研究者能够训练模型从观察中直接学习动作策略,实现从感知到执行的端到端映射。
解决学术问题
该数据集有效应对了机器人学中样本效率低下与泛化能力不足的挑战。通过提供结构化且标注清晰的真实世界交互数据,它支持了基于深度学习的策略优化、状态表示学习以及跨任务迁移等核心问题的探索,显著降低了实验门槛并推动了数据驱动方法在机器人控制中的普及。
衍生相关工作
围绕该数据集,已衍生出一系列专注于视觉-动作联合建模与离线强化学习的研究工作。这些工作利用其多模态特性,探索了时空特征提取、行为预测模型以及基于模型的规划算法,进一步丰富了机器人学习领域的算法库,并为后续大规模机器人数据集的构建提供了参考范式。
以上内容由遇见数据集搜集并总结生成



