so101-with-narration

Hugging Face2025-11-25 更新2025-11-26 收录

下载链接：

https://huggingface.co/datasets/0xNOY/so101-with-narration

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于机器人学的数据集，由LeRobot创建，包含了44个剧集，共计29807帧，分为4个任务。数据集采用Apache-2.0许可。数据集的结构包括动作、观察状态、顶部和手腕的图像、当前和之前的叙述、时间戳、帧索引、剧集索引、索引和任务索引等特征。数据以Parquet格式存储，并且提供了相应的视频文件。

This is a robotics dataset created by LeRobot. It comprises 44 episodes with a total of 29,807 frames, and is categorized into 4 tasks. The dataset is licensed under the Apache-2.0 license. Its structural features include actions, observation states, top-mounted and wrist-mounted images, current and prior narratives, timestamps, frame indices, episode indices, sample indices, and task indices. The data is stored in Parquet format, with corresponding video files provided.

创建时间：

2025-11-25

原始信息汇总

数据集概述

基本信息

数据集名称: so101-with-narration
任务类别: 机器人技术
标签: LeRobot
许可证: Apache-2.0
创建工具: LeRobot (https://github.com/huggingface/lerobot)

数据集规模

总任务数: 4
总回合数: 44
总帧数: 29807
帧率: 30 FPS
数据文件大小: 100 MB
视频文件大小: 500 MB
分块大小: 1000
代码库版本: v3.0

数据分割

训练集: 全部44个回合

数据结构

数据文件路径

数据文件: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

特征字段

动作特征

名称: action
数据类型: float32
形状: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

状态观测

名称: observation.state
数据类型: float32
形状: [6]
关节名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

图像观测

顶部摄像头:

名称: observation.images.top
数据类型: video
分辨率: 480×640×3
视频参数:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 帧率: 30
- 通道数: 3
- 非深度图
- 无音频

腕部摄像头:

名称: observation.images.wrist
数据类型: video
分辨率: 480×640×3
视频参数:
- 高度: 480
- 宽度: 640
- 编码: av1
- 像素格式: yuv420p
- 帧率: 30
- 通道数: 3
- 非深度图
- 无音频

文本特征

当前叙述: current_narration (string, [1])
先前叙述: previous_narrations (string, [1])

索引特征

时间戳: timestamp (float32, [1])
帧索引: frame_index (int64, [1])
回合索引: episode_index (int64, [1])
索引: index (int64, [1])
任务索引: task_index (int64, [1])

机器人类型

机器人型号: so101_follower

引用信息

主页: 信息缺失
论文: 信息缺失
BibTeX引用: 信息缺失

搜集汇总

数据集介绍

构建方式

在机器人技术领域，so101-with-narration数据集通过LeRobot平台精心构建，涵盖了44个完整任务片段，总计29807帧数据。该数据集以30帧每秒的速率采集，采用分块存储策略，每个数据块包含1000帧，并以Parquet格式高效组织。数据采集过程中，机器人状态、动作指令及多视角视觉信息被同步记录，确保了时序一致性与完整性。

特点

该数据集融合了机器人关节状态、动作指令及双视角视觉流，顶部与腕部摄像头均以480x640分辨率捕捉RGB图像。其独特之处在于引入了实时语音叙述机制，通过current_narration和previous_narrations字段实现任务执行过程的语言标注。数据结构采用标准化特征描述，支持六自由度机械臂控制研究，为具身智能任务提供了多模态交互范本。

使用方法

研究者可通过加载Parquet数据文件直接访问机器人状态观测、动作序列及同步视觉流，利用帧索引与时间戳实现精准数据对齐。该数据集适用于模仿学习与任务规划算法开发，其叙事文本可作为自然语言指令与机器人动作的关联桥梁。视频数据采用AV1编码存储，需配合相应解码器进行解析，建议按照分块索引策略逐步加载以优化内存使用。

背景与挑战

背景概述

在机器人学习领域，模仿学习与任务导向型行为生成始终是核心研究议题。so101-with-narration数据集由LeRobot团队基于其开源机器人学习平台构建，专门面向具身智能体的多模态交互任务。该数据集通过集成机械臂关节状态、双视角视觉感知与实时语言叙述，构建了包含44个任务片段、近三万帧数据的动态序列，旨在探索语言指令与物理动作的时空对齐机制，为机器人任务理解与执行提供结构化学习范本。

当前挑战

该数据集需应对机器人操作任务中动作序列与语言叙述的时序对齐难题，包括多模态信号同步精度不足导致的语义断层问题。构建过程中面临传感器数据融合的异构性挑战，如视觉流与关节轨迹的采样率匹配、叙述文本与动作片段的语义一致性标注，以及大规模视频数据压缩存储带来的信息损失风险。

常用场景

经典使用场景

在机器人学习领域，so101-with-narration数据集通过整合多模态传感器数据与语言叙述，为模仿学习算法提供了丰富的训练基础。该数据集记录了机械臂执行任务时的关节位置、视觉观察及伴随的语言描述，使得研究者能够构建从自然语言指令到机器人动作的映射模型。这种结构特别适用于端到端的行为克隆方法，通过同步的视觉-语言-动作序列，促进机器人对复杂任务的理解与执行。

解决学术问题

该数据集有效应对了机器人任务学习中语义对齐的挑战，通过语言叙述与物理动作的关联标注，解决了传统方法中指令理解与动作执行割裂的问题。其多模态特性支持跨模态表示学习的研究，为具身智能中的情境感知与长期任务规划提供了实验基础。这一资源显著推进了人机交互场景下自然语言引导的机器人控制技术发展，填补了真实环境任务数据与语言 grounding 之间的鸿沟。

衍生相关工作

基于该数据集衍生的研究主要集中在多模态机器人策略学习方向，例如结合视觉-语言预训练模型的动作生成网络，以及基于叙事序列的分层强化学习框架。部分工作探索了如何利用历史叙述信息提升长期任务完成的连贯性，另一些研究则专注于从视频与语言数据中提取可迁移的技能表示，这些成果显著推动了面向真实场景的对话式机器人系统发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集