so100_tidy

Hugging Face2025-04-07 更新2025-04-08 收录

下载链接：

https://huggingface.co/datasets/aihpi/so100_tidy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集使用LeRobot创建，包含多个特征，如动作、观测状态、两种摄像头的图像数据等。数据集分为训练集和测试集，共有2个剧集，1169个帧，4个视频。数据以Parquet文件格式存储，并提供了对应的视频文件。

创建时间：

2025-04-07

原始信息汇总

数据集概述

基本信息

许可证: apache-2.0
任务类别: 机器人学 (robotics)
标签: LeRobot, so100, tidy

数据集描述

创建工具: LeRobot
主页: [未提供]
论文: [未提供]

数据集结构

数据文件格式: Parquet (data/*/*.parquet)
元数据文件: meta/info.json

元数据详情

代码库版本: v2.1
机器人类型: so100
总集数: 2
总帧数: 1169
总任务数: 1
总视频数: 4
总块数: 1
块大小: 1000
帧率 (FPS): 30
数据分割:
- 训练集: 0:2

数据路径

数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征结构

动作 (action):
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测状态 (observation.state):
- 数据类型: float32
- 形状: [6]
- 名称: 同动作特征
观测图像 (observation.images.logitech 和 observation.images.laptop):
- 数据类型: video
- 形状: [1080, 1920, 3]
- 名称: height, width, channels
- 视频信息:
  - 帧率: 30.0
  - 分辨率: 1080x1920
  - 通道数: 3
  - 编码格式: av1
  - 像素格式: yuv420p
  - 是否为深度图: false
  - 是否包含音频: false
时间戳 (timestamp):
- 数据类型: float32
- 形状: [1]
帧索引 (frame_index):
- 数据类型: int64
- 形状: [1]
集索引 (episode_index):
- 数据类型: int64
- 形状: [1]
索引 (index):
- 数据类型: int64
- 形状: [1]
任务索引 (task_index):
- 数据类型: int64
- 形状: [1]

引用

BibTeX: [未提供]

搜集汇总

数据集介绍

构建方式

在机器人技术领域，so100_tidy数据集通过LeRobot平台精心构建，采用模块化数据采集策略。该数据集以Parquet格式存储，包含2个完整操作片段和1169帧数据，每帧均以30fps的采样率捕获。数据采集过程中同步记录了六自由度机械臂的关节状态、双视角高清视频流及精确时间戳，通过分块存储机制确保数据的高效存取。

使用方法

研究者可通过解析Parquet文件直接获取结构化数据，利用帧索引实现精确数据定位。视频文件与传感器数据通过统一的命名规则关联，支持跨模态分析。数据集已预设训练集划分，用户可直接加载chunk-000目录下的数据进行模型训练，建议配合LeRobot工具包实现数据可视化与预处理。

背景与挑战

背景概述

so100_tidy数据集是由LeRobot团队构建的机器人领域专用数据集，旨在为机器人控制与行为学习提供高质量的多模态数据支持。该数据集基于so100机器人平台采集，包含机械臂动作指令、关节状态观测以及多视角视觉数据，为机器人模仿学习与强化学习算法研究提供了重要基准。数据集采用Apache 2.0开源协议，其结构化存储格式与丰富的传感器数据特征，显著提升了机器人任务中状态-动作映射关系的研究效率。

当前挑战

该数据集面临的核心挑战体现在算法与应用两个维度：在算法层面，如何有效融合高维视觉观测与低维关节状态数据，构建鲁棒的特征表示以应对现实场景的复杂性；在数据构建层面，需解决多传感器时序同步精度、大规模视频数据存储优化，以及机械臂动作空间采样效率等工程难题。数据集当前仅包含2个训练片段，其规模局限性可能影响深度学习模型的泛化能力评估。

常用场景

经典使用场景

在机器人控制与学习领域，so100_tidy数据集为研究者提供了一个标准化的实验平台。该数据集记录了so100型机械臂在执行任务过程中的关节状态、动作指令以及多视角视觉数据，特别适用于模仿学习与强化学习算法的训练与验证。通过精确的时序对齐与多维特征记录，研究者能够复现机械臂的运动轨迹，分析控制策略的有效性。

解决学术问题

该数据集有效解决了机器人领域动作-观测对齐、多模态数据融合等关键问题。其提供的6自由度关节空间数据与高清视觉流，为研究机械臂的轨迹规划、视觉伺服控制等课题提供了基准。通过标准化数据格式与时间戳同步，显著降低了跨平台算法比较的复杂度，推动了机器人学习研究的可复现性发展。

实际应用

在工业自动化场景中，该数据集可优化机械臂分拣、装配等任务的执行策略。物流企业利用其多模态数据训练视觉定位模型，提升复杂环境下的抓取精度。教育机构则基于该数据集开发机器人控制课程实验平台，通过真实操作数据降低教学设备损耗风险。

数据集最近研究