so100_mix

Hugging Face2026-04-04 更新2026-04-05 收录

下载链接：

https://huggingface.co/datasets/zzzlamb/so100_mix

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人技术领域。数据集采用Apache-2.0许可证，包含200个episodes，总计147703帧，涉及1个任务。数据以parquet文件格式存储，总数据文件大小为100MB，视频文件大小为200MB，帧率为30FPS。数据集包含训练集（0:200）。数据集结构包括动作数据（6个浮点型关节位置）、观测数据（状态和来自顶部及手部摄像头的图像，分辨率为480x640，3通道）、时间戳、帧索引、episode索引和任务索引等字段。顶部和手部摄像头的视频采用h264编码，yuv420p像素格式，无音频。数据集缺少主页、论文和引用信息。

创建时间：

2026-04-03

原始信息汇总

数据集概述

基本信息

数据集名称: so100_mix
托管平台: Hugging Face
创建工具: LeRobot (https://github.com/huggingface/lerobot)
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 200
总帧数: 147703
总任务数: 1
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 30 FPS
数据块大小: 1000
代码库版本: v3.0
机器人类型: so_follower
数据分割: 全部数据用于训练 (索引 0:200)
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

动作空间

特征名: action
数据类型: float32
形状: [6]
描述: 包含6个关节的位置指令：
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

观测空间

状态观测

特征名: observation.state
数据类型: float32
形状: [6]
描述: 包含6个关节的当前位置，名称与动作空间相同。

图像观测 - 顶部摄像头

特征名: observation.images.top
数据类型: video
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: h264
- 像素格式: yuv420p
- 非深度图
- 帧率: 30 FPS
- 通道数: 3
- 无音频

图像观测 - 手部摄像头

特征名: observation.images.hand
数据类型: video
形状: [480, 640, 3] (高度, 宽度, 通道)
视频信息: 与顶部摄像头规格相同。

元数据特征

timestamp: 时间戳，float32 类型，形状 [1]。
frame_index: 帧索引，int64 类型，形状 [1]。
episode_index: 情节索引，int64 类型，形状 [1]。
index: 索引，int64 类型，形状 [1]。
task_index: 任务索引，int64 类型，形状 [1]。

可视化

可视化空间: https://huggingface.co/spaces/lerobot/visualize_dataset?path=zzzlamb/so100_mix

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX 引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人操作领域，数据集的构建往往依赖于实际物理系统的交互记录。so100_mix数据集通过LeRobot平台采集，涵盖了200个完整操作片段，总计147,703帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与读取。采集过程中，机器人关节状态与双视角视觉信息被同步记录，形成了多模态的时序数据流。

特点

该数据集的核心特征在于其丰富的多模态表示与精细的结构化设计。数据集中包含六自由度机械臂的关节位置作为动作空间，同时提供相同维度的状态观测，实现了动作与状态的对齐。视觉方面，顶部与手部双摄像头以30帧率捕捉480x640分辨率的RGB视频，为模型提供了互补的空间视角。数据集采用分块存储与索引机制，支持高效的随机访问与流式加载。

使用方法

使用该数据集时，研究者可通过标准数据加载接口读取Parquet格式的文件，并利用内置的帧索引与片段索引进行数据切片。数据集中已预定义训练集划分，涵盖了全部200个操作片段。用户可结合动作、状态与视觉特征，构建端到端的机器人策略学习或模仿学习模型。数据集的视频部分可通过指定路径直接加载，便于进行视觉表征学习或行为克隆任务。

背景与挑战

背景概述

在机器人学习领域，模仿学习与强化学习的发展亟需大规模、高质量的真实世界交互数据作为支撑。so100_mix数据集应运而生，它由HuggingFace的LeRobot项目团队构建，旨在为机器人操作任务提供丰富的多模态演示数据。该数据集聚焦于机械臂的跟随控制问题，收录了200个完整交互片段，包含近十五万帧同步的姿态动作与双视角视觉观测，其结构化特征涵盖了六自由度关节空间控制指令及对应的环境状态，为训练端到端的机器人策略模型奠定了数据基础。

当前挑战

该数据集致力于解决机器人模仿学习中从高维视觉输入到连续动作输出的映射这一核心挑战，其难点在于如何从非结构化的视频流与状态序列中学习鲁棒且泛化能力强的控制策略。在构建过程中，面临多传感器数据的高精度同步与对齐、大规模视频数据的高效存储与读取，以及真实物理交互中不可避免的噪声与动力学不确定性等工程与算法挑战。

常用场景

经典使用场景

在机器人学习领域，so100_mix数据集为模仿学习与强化学习算法提供了丰富的多模态交互数据。该数据集通过记录机器人执行任务时的关节位置、视觉观察和时间戳，构建了从感知到动作的完整轨迹。经典使用场景包括训练端到端的机器人控制策略，使模型能够从视觉输入直接预测机械臂的运动指令，从而在仿真或真实环境中实现精准的物体操作任务。

解决学术问题

该数据集有效解决了机器人学中样本效率低下和泛化能力不足的学术难题。通过提供大规模、结构化的真实世界交互数据，研究者能够探索数据驱动的策略学习方法，减少对昂贵仿真环境的依赖。其意义在于推动了视觉-动作映射模型的进展，为跨任务迁移学习和少样本适应提供了坚实基础，显著提升了机器人自主执行复杂操作任务的可行性。

衍生相关工作

围绕so100_mix数据集，衍生出多项经典研究工作，包括基于Transformer的序列建模方法用于机器人轨迹预测，以及结合自监督学习的视觉表征预训练技术。这些工作进一步拓展了数据集的利用维度，例如开发多视角视觉融合架构以提升空间感知精度，或设计分层强化学习框架来分解长期任务规划，持续推动机器人智能控制的前沿发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集