so101_test

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/Winnie002/so101_test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，专注于机器人技术领域。数据集包含5个完整的情节，总计8191帧数据，涉及1个任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30fps。数据集结构包括动作数据（6个浮点型关节位置）、观察状态数据（6个浮点型关节位置）、前端摄像头图像（480x640x3的视频帧）、时间戳、帧索引、情节索引、任务索引等字段。视频数据采用AV1编码，YUV420p像素格式，无音频。适用于机器人控制、行为模仿等研究任务。

创建时间：

2026-04-30

原始信息汇总

数据集概述

基本信息

数据集名称：so101_test
许可证：Apache-2.0
任务类别：机器人学（Robotics）
标签：LeRobot
创建工具：LeRobot

数据集规模

总片段数（Episodes）：5
总帧数（Frames）：8,191
总任务数（Tasks）：1
数据文件大小：100 MB
视频文件大小：200 MB
帧率（FPS）：30
数据分块大小：1000

机器人类型

机器人类型：so_follower

数据分割

训练集：片段 0 到 4（共5个片段）

数据结构与特征

数据文件路径

数据文件存储在 data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet 格式路径下
视频文件存储在 videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4 格式路径下

特征说明

特征名称	数据类型	形状	说明
`action`	float32	[6]	机器人动作：肩部俯仰/升降、肘部弯曲、腕部弯曲/旋转、夹爪位置
`observation.state`	float32	[6]	机器人状态（与动作同名变量）
`observation.images.front`	video	[480, 640, 3]	前置摄像头视频，分辨率480x640，3通道，编码为AV1，30fps
`timestamp`	float32	[1]	时间戳
`frame_index`	int64	[1]	帧索引
`episode_index`	int64	[1]	片段索引
`index`	int64	[1]	全局索引
`task_index`	int64	[1]	任务索引

视频信息

分辨率：480x640
编码格式：AV1
像素格式：yuv420p
帧率：30 FPS
通道数：3
是否为深度图：否
是否包含音频：否

搜集汇总

数据集介绍

构建方式

so101_test数据集依托于LeRobot框架构建，专为机器人学习任务设计。该数据集通过仿人示教的方式，采集了so_follower型号机器人在单一任务下的5段演示轨迹，总计包含8191帧时序数据。每条轨迹以30帧/秒的采样率记录，并按照每1000帧为一个数据块进行分块存储，最终以Parquet格式保存机器人的关节状态与动作指令，同时以AV1编码的MP4视频文件记录前端摄像头捕获的视觉信息。数据集的元信息结构清晰，定义了6维关节空间下的动作与观测状态，涵盖肩部、肘部、腕部及夹爪的位置信息。

特点

该数据集的核心亮点在于其紧凑且完备的结构设计。虽然仅包含5段示范轨迹，但数据量已达8191帧，且通过分块存储有效管理了100MB的时序数据与200MB的视频数据。数据集中每帧均同时提供动作指令、关节状态、时间戳、帧索引及任务索引等多维元数据，便于进行行为克隆或模仿学习等算法研究。视觉观测方面，采用480×640分辨率的前端RGB图像，以30帧/秒的AV1编码视频流形式呈现，在保证画质的前提下优化了存储效率。此外，数据集遵循Apache-2.0开源协议，具备良好的可复用性与扩展性。

使用方法

该数据集可通过LeRobot生态工具链便捷调用。用户可直接访问HuggingFace平台上提供的可视化界面，直观浏览各段轨迹的演示内容。在开发实践中，推荐使用LeRobot库中的数据集加载模块，按照parquet文件路径与视频路径的命名规则读取分块数据。由于数据集提供了统一的特征空间（6维关节状态与动作），研究人员可将其直接输入策略网络进行端到端的训练。值得注意的是，所有5段轨迹均归入训练集，未预设验证集划分，用户可根据需求自行拆分。结合Apache-2.0许可，该数据集适用于学术研究与工业级机器人控制算法的开发验证。

背景与挑战

背景概述

so101_test数据集诞生于机器人学习领域对高质量、可复现数据日益增长的需求背景下，由HuggingFace社区及LeRobot框架的研究人员基于Apache-2.0许可创建。该数据集聚焦于机器人模仿学习与操作任务，通过记录so_follower型机械臂在单任务下的5个完整回合、逾8000帧状态-动作序列，为端到端机器人控制提供了标准化的训练与评估基准。其核心研究问题在于如何利用低延迟、高精度的运动数据（包括肩关节、肘关节、腕关节及夹爪的6维连续控制信号）与第一视角视觉观测（30帧/秒、640×480像素的视频流）的联合模态，推动机器人掌握精细操作技能。作为LeRobot生态的典型范例，该数据集不仅促进了开源社区对机器人数据集的标准化构建，还通过简洁的数据结构（parquet格式存储动作与状态、AV1编码视频）降低了研究门槛，对机器人行为克隆、策略学习等方向产生了显著影响。

当前挑战

在领域问题层面，so101_test数据集旨在解决机器人精细操作中任务泛化与动态适应性的挑战——现有模型常因动作空间连续性与视觉-运动耦合的非线性关系，难以从有限回合数据中习得鲁棒策略。例如，单任务5个回合的规模虽便于快速原型验证，却不足以覆盖真实场景中的对象位置偏移、外力干扰及执行器误差等因素，导致模型在面对环境微小扰动时控制精度下降。在构建过程中，挑战体现在数据采集的稳定性与多模态对齐上：需在30帧/秒的采样率下确保视频帧与6维动作指令的时间戳严格同步，同时避免因so_follower机械臂的关节回差或视觉传感器畸变引入的系统性噪声。此外，将原始传感器数据高效编码为AV1格式视频并压缩至200MB的视频文件大小，在保留纹理细节与减轻存储负担间取得平衡，亦构成技术难点。

常用场景

经典使用场景

在机器人学习与智能控制领域，so101_test数据集为模仿学习与行为克隆提供了经典的训练与评估基准。该数据集包含5个完整操作回合、共计8191个时间步的精细动作记录，覆盖了从肩部关节到夹爪的6自由度运动轨迹，并同步采集了640×480分辨率的前置摄像头视觉影像。研究者可借助这些多模态数据，构建从视觉观察到动作输出的端到端映射模型，尤其在仅有单个操作任务的简洁设定下，能够清晰评估算法对特定动作序列的复现精度与泛化能力。

解决学术问题

该数据集着力解决机器人技能学习领域中数据稀缺与高维动作空间建模的双重挑战。通过提供标准化、结构化的高采样率（30帧/秒）6轴机械臂操作数据，有效支撑了基于视觉的运动策略学习研究，降低了从真实机器人平台采集示范数据的门槛。其深远意义在于推动了迁移学习与少样本控制策略的学术探索，使得研究者能够在可控条件下验证模型对连续动作分布的记忆与泛化性能，为构建更灵巧的自主操作能力奠定实验基础。

衍生相关工作

基于so101_test数据集的结构化设计与多模态特性，衍生了一系列具有代表性的相关工作。在模型架构革新方面，动作分块变换器被提出用于长序列动作预测，兼顾了实时性；在算法突破方面，扩散策略被引入机器人模仿学习中，通过逐步去噪生成高精度动作轨迹。此外，数据集所依托的LeRobot生态催生了跨平台的动作表示统一标准，推动了多任务训练、动态时序对齐等前沿课题的进展。这些工作共同深化了对“视觉-本体感觉-动作”联合建模机理的认知，加速了通用机器人智能体时代的到来。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集