eval_snvla_so101_wn_aug

Hugging Face2025-12-09 更新2025-12-10 收录

下载链接：

https://huggingface.co/datasets/0xNOY/eval_snvla_so101_wn_aug

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由LeRobot创建，主要用于机器人领域。包含30个episodes，21551帧数据，3个任务。数据以parquet格式存储，包含动作（如shoulder_pan.pos等6个关节位置）、观测状态（与动作相同的6个关节位置）、图像（顶部和手腕视角，分辨率480x640，3通道）、概率值（prob_bon、prob_boa）、叙述指标（narration_metrics、current_narration等）、时间戳、帧索引、episode索引等多种特征。视频数据以30fps的帧率存储，总数据量约300MB（数据文件100MB，视频文件200MB）。

This dataset was developed by LeRobot, primarily intended for robotics research. It contains 30 episodes, 21551 frames, and 3 distinct tasks. The data is stored in Parquet format, including multiple types of features: action data (6 joint positions including shoulder_pan.pos), observation states (the same 6 joint positions as the action data), images captured from top and wrist viewpoints with a resolution of 480×640 and 3 channels, probability values (prob_bon, prob_boa), narration metrics (narration_metrics, current_narration, etc.), timestamps, frame indices, episode indices, and other relevant features. The video data is stored at a frame rate of 30 fps, with an overall data volume of approximately 300 MB (100 MB for data files and 200 MB for video files).

创建时间：

2025-12-08

原始信息汇总

数据集概述

基本信息

数据集名称: eval_snvla_so101_wn_aug
创建工具: 使用 LeRobot (https://github.com/huggingface/lerobot) 创建
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot

数据集规模与结构

总情节数: 30
总帧数: 21551
总任务数: 3
数据块大小: 1000
数据文件总大小: 100 MB
视频文件总大小: 200 MB
帧率: 30 FPS
数据划分: 训练集 (0:30)
数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4
代码库版本: v3.0
机器人类型: so101_follower

数据特征

动作空间

特征名: action
数据类型: float32
形状: [6]
维度名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

状态观测

特征名: observation.state
数据类型: float32
形状: [6]
维度名称:
- shoulder_pan.pos
- shoulder_lift.pos
- elbow_flex.pos
- wrist_flex.pos
- wrist_roll.pos
- gripper.pos

顶部摄像头图像观测

特征名: observation.images.top
数据类型: video
形状: [480, 640, 3]
维度名称: height, width, channels
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: false

腕部摄像头图像观测

特征名: observation.images.wrist
数据类型: video
形状: [480, 640, 3]
维度名称: height, width, channels
视频信息:
- 高度: 480 像素
- 宽度: 640 像素
- 编解码器: av1
- 像素格式: yuv420p
- 是否为深度图: false
- 帧率: 30 FPS
- 通道数: 3
- 包含音频: false

其他特征

prob_bon: float32 类型，形状 [1]
prob_boa: float32 类型，形状 [1]
narration_metrics: string 类型，形状 [1]
current_narration: string 类型，形状 [1]
previous_narrations: string 类型，形状 [1]
timestamp: float32 类型，形状 [1]
frame_index: int64 类型，形状 [1]
episode_index: int64 类型，形状 [1]
index: int64 类型，形状 [1]
task_index: int64 类型，形状 [1]

引用信息

主页: [More Information Needed]
论文: [More Information Needed]
BibTeX 引用: [More Information Needed]

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动算法发展的基石。eval_snvla_so101_wn_aug数据集依托LeRobot平台构建，通过SO101型跟随机器人采集了30个完整任务片段，共计21551帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与访问。采集过程同步记录了机器人的六维关节位置状态、来自顶部和腕部摄像头的视觉信息，并以30帧每秒的速率保存为AV1编码视频，辅以时间戳、任务索引等元数据，形成了多模态、时序对齐的机器人操作轨迹库。

特点

该数据集的核心特征在于其丰富的多模态表征与精细的结构化设计。它提供了机器人本体的连续动作空间与状态观测，涵盖肩部平移、肩部抬升、肘部弯曲、腕部弯曲、腕部旋转及夹爪位置六自由度控制。视觉层面则整合了双视角RGB图像流，分辨率达640x480，为环境感知提供了立体视觉上下文。此外，数据集创新性地引入了叙述性指标与当前及历史叙述文本字段，这为结合自然语言理解与机器人决策的研究开辟了新途径。所有特征均以严格的形状和数据类型定义，确保了数据的一致性与可复现性。

使用方法

为有效利用该数据集进行机器人技能学习或策略评估，研究者可通过HuggingFace数据集库直接加载。数据已预分割为训练集，涵盖全部30个任务片段。典型使用流程包括按指定路径模式读取Parquet数据块，并行加载对应的MP4视频文件。用户可提取动作、观测状态、图像及叙述文本等字段，用于训练模仿学习、强化学习或视觉语言动作模型。得益于其统一的结构，该数据集能够便捷地集成到现有机器学习管道中，支持端到端的机器人控制算法开发与基准测试。

背景与挑战

背景概述

在机器人学习领域，高质量的数据集对于推动模仿学习与强化学习算法的进步至关重要。eval_snvla_so101_wn_aug数据集由LeRobot项目团队构建，专注于解决机器人操作任务中的状态-动作映射与视觉感知联合建模问题。该数据集采集自so101_follower型机器人平台，包含多视角图像流、关节状态及动作指令等异构时序数据，旨在为机器人策略学习提供丰富的真实世界交互轨迹。其设计核心在于通过增强的叙事标注与概率奖励信号，支持复杂任务下的策略评估与泛化能力研究，为机器人自主操作系统的数据驱动方法奠定了实证基础。

当前挑战

该数据集致力于应对机器人操作中高维连续动作空间与多模态感知融合的挑战，其核心问题在于如何从异构传感数据中学习鲁棒且可泛化的控制策略。构建过程中的挑战主要体现在多源数据同步与对齐的复杂性，例如机械臂关节状态与双视角视频流的时间戳精确匹配；此外，叙事标注的语义一致性与概率奖励信号的稀疏性也为数据质量保障带来了困难。数据规模的有限性，仅包含30个任务片段，可能制约了模型在多样化场景下的泛化性能评估。

常用场景

经典使用场景

在机器人学习领域，eval_snvla_so101_wn_aug数据集为模仿学习与强化学习算法的评估提供了关键基准。该数据集通过记录SO101跟随者机器人的多模态交互数据，包括关节位置、视觉图像及任务叙述，使得研究者能够训练和验证端到端的控制策略。经典使用场景涉及在模拟或真实环境中，利用这些时序数据来优化机器人的动作生成，提升其在复杂任务中的自主执行能力。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在多模态学习与策略蒸馏方向。例如，利用其视觉和动作数据开发端到端模仿学习框架，或结合叙述信息进行任务条件化强化学习。这些工作不仅拓展了数据集的利用率，还催生了新的算法模型，如基于Transformer的序列预测方法，为机器人学习社区提供了可复现的基准与创新灵感。

数据集最近研究