Soar

Hugging Face2025-12-26 更新2025-12-27 收录

下载链接：

https://huggingface.co/datasets/Gaugou/Soar

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是将SOAR数据集转换为LeRobot格式创建的，主要用于机器人领域。数据集包含31812个总片段，3417760个总帧数，335个总任务。数据以parquet文件格式存储，视频帧分辨率为256x256，帧率为5fps。数据集的特征包括语言指令、观察状态、动作、是否成功等，适用于机器人学习和控制任务。

创建时间：

2025-12-15

原始信息汇总

数据集概述

基本信息

数据集名称: Soar
许可证: Apache 2.0
任务类别: 机器人学
标签: LeRobot
创建工具: 使用 LeRobot 创建
格式转换: 已转换为 lerobot 格式

数据集规模

总情节数: 31,812
总帧数: 3,417,760
总任务数: 335
数据块大小: 1,000
数据文件大小: 100 MB
视频文件大小: 200 MB
帧率: 5 FPS
数据分割: 训练集 (0:31812)

数据文件结构

数据文件路径模式: data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet
视频文件路径模式: videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4

数据特征

元数据特征

is_first: 布尔值，表示是否为情节起始帧。
is_last: 布尔值，表示是否为情节结束帧。
is_terminal: 布尔值，表示是否为终止状态。
language_instruction: 字符串，语言指令。
is_episode_successful: 布尔值，表示情节是否成功。
robot_id: 字符串，机器人标识。
date: 字符串，日期。
timestamp: 浮点数，时间戳。
frame_index: 整数，帧索引。
episode_index: 整数，情节索引。
index: 整数，索引。
task_index: 整数，任务索引。

观测特征

observation.images.image: 视频数据，形状为 [256, 256, 3]，编码为 AV1，像素格式为 yuv420p，无音频。
observation.state: 浮点数数组，形状为 [7]，表示机器人状态，轴标签为 ["x", "y", "z", "qx", "qy", "qz", "gripper"]。

动作特征

action: 浮点数数组，形状为 [7]，表示机器人动作，轴标签为 ["relative_x", "relative_y", "relative_z", "relative_qx", "relative_qy", "relative_qz", "binary_gripper"]。

机器人信息

机器人类型: WidowX
代码库版本: v3.0

引用文献

bibtex @article{zhou2024autonomous, title={Autonomous Improvement of Instruction Following Skills via Foundation Models}, author={Zhiyuan Zhou and Pranav Atreya and Abraham Lee and Homer Walke and Oier Mees and Sergey Levine}, journal = {arXiv preprint arXiv:407.20635}, year={2024}, }

搜集汇总

数据集介绍

构建方式

在机器人学习领域，数据集的构建方式直接影响模型训练的效能与泛化能力。Soar数据集通过LeRobot框架进行格式转换，原始数据源自WidowX机器人平台，涵盖了31,812个完整任务片段，总计超过340万帧数据。数据以分块存储的Parquet文件形式组织，每块包含1,000个数据点，确保了高效的数据读取与处理。该数据集整合了视觉观测、机器人状态及动作指令等多模态信息，为机器人技能学习提供了结构化的训练资源。

特点

Soar数据集在机器人操作任务中展现出鲜明的技术特色。其核心特征在于融合了高维视觉输入与精确的状态动作对，每帧图像分辨率达256x256，并以5帧每秒的速率采集，保证了动作序列的连贯性。数据集标注了语言指令、终端状态标志及任务成功标识，支持端到端的模仿学习与强化学习研究。此外，数据集中包含7维的机器人状态向量与对应的7维动作空间，涵盖了位置、姿态及夹爪控制等关键维度，为复杂操作任务的建模提供了丰富的信息基础。

使用方法

针对机器人技能学习的研究需求，Soar数据集提供了便捷的调用接口。用户可通过LeRobot库加载数据，直接访问分块存储的Parquet文件，每个文件包含观测图像、状态向量、动作指令及元数据。数据集适用于训练视觉-动作映射模型，支持从语言指令到机器人动作的序列预测任务。研究人员可利用其完整的分帧索引与任务标识，构建离线强化学习或行为克隆实验，并通过成功标志评估策略性能。数据集的标准化格式确保了与主流机器人学习框架的兼容性，加速了算法开发与验证过程。

背景与挑战

背景概述

在机器人学习领域，大规模、高质量的数据集对于推动模仿学习与指令跟随能力的发展至关重要。Soar数据集由HuggingFace的LeRobot团队于2024年构建，其核心研究问题聚焦于通过基础模型自主提升机器人对自然语言指令的理解与执行能力。该数据集收录了超过三万条由WidowX机器人执行的交互轨迹，涵盖三百余项任务，为机器人泛化技能的学习提供了丰富的多模态数据支撑，显著促进了具身智能领域从静态任务向动态、开放式指令跟随的范式转变。

当前挑战

Soar数据集致力于解决机器人指令跟随这一核心挑战，即如何使机器人准确理解并执行多样化的自然语言指令，在复杂、非结构化的现实环境中实现鲁棒操作。构建过程中的挑战包括多模态数据的高效对齐与同步，需确保视觉观测、机器人状态与动作指令在时序上的一致性；同时，数据规模庞大带来的存储与处理复杂度，以及不同任务间技能迁移的泛化性评估，均为数据集的实际应用设置了较高门槛。

常用场景

经典使用场景

在机器人学习领域，Soar数据集为模仿学习与强化学习算法的训练与评估提供了关键支持。该数据集包含超过3.1万条任务轨迹，涵盖335种不同任务，以WidowX机器人的视觉观察、状态信息和动作指令构成多模态序列。研究者常利用其丰富的语言指令与机器人动作对应关系，开发能够理解自然语言并执行复杂操作的智能体，推动机器人从感知到行动的端到端学习范式。

衍生相关工作

围绕Soar数据集，学术界已衍生出一系列经典研究工作，特别是在基于基础模型的机器人技能学习方面。例如，原始论文《Autonomous Improvement of Instruction Following Skills via Foundation Models》利用该数据集探索了通过大模型自主提升指令跟随能力的方法。后续研究进一步扩展了其在视觉语言动作模型、离线强化学习以及跨模态策略蒸馏等方向的应用，推动了机器人学习范式的创新与发展。

数据集最近研究