svla_so100_sorting

Hugging Face2025-06-03 更新2025-06-04 收录

下载链接：

https://huggingface.co/datasets/lerobot/svla_so100_sorting

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于机器人学的数据集，包含9个剧集，共6633帧，专注于一个任务。数据集提供了18个视频文件，所有数据被分为一个数据块，每个数据块包含1000帧。数据集的特征包括机器人的动作和状态，以及顶部和手腕的图像。数据以Parquet文件格式存储，视频采用AV1编码。

创建时间：

2025-05-20

原始信息汇总

数据集概述

基本信息

名称: svla_so100_sorting
许可证: Apache-2.0
任务类别: 机器人学
标签: LeRobot, tutorial
代码库版本: v2.1
机器人类型: so100

数据集结构

总集数: 9
总帧数: 6633
总任务数: 1
总视频数: 18
总块数: 1
块大小: 1000
帧率: 30 fps
数据路径: data/chunk-{episode_chunk:03d}/episode_{episode_index:06d}.parquet
视频路径: videos/chunk-{episode_chunk:03d}/{video_key}/episode_{episode_index:06d}.mp4

特征

动作:
- 数据类型: float32
- 形状: [6]
- 名称: main_shoulder_pan, main_shoulder_lift, main_elbow_flex, main_wrist_flex, main_wrist_roll, main_gripper
观测状态:
- 数据类型: float32
- 形状: [6]
- 名称: 同动作特征
观测图像 (顶部):
- 数据类型: video
- 形状: [480, 640, 3]
- 视频信息: fps=30, height=480, width=640, channels=3, codec=av1, pix_fmt=yuv420p, is_depth_map=false, has_audio=false
观测图像 (腕部):
- 数据类型: video
- 形状: [480, 640, 3]
- 视频信息: 同顶部图像
其他特征:
- timestamp, frame_index, episode_index, index, task_index

引用

bibtex @misc{shukor2025smolvlavisionlanguageactionmodelaffordable, title={SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics}, author={Mustafa Shukor and Dana Aubakirova and Francesco Capuano and Pepijn Kooijmans and Steven Palma and Adil Zouitine and Michel Aractingi and Caroline Pascal and Martino Russi and Andres Marafioti and Simon Alibert and Matthieu Cord and Thomas Wolf and Remi Cadene}, year={2025}, eprint={2506.01844}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2506.01844}, }

搜集汇总

数据集介绍

构建方式

在机器人操作任务的数据采集领域，svla_so100_sorting数据集依托LeRobot框架系统构建，通过SO100型机器人执行分拣任务，采集了9个完整操作片段，总计6633帧多模态数据。数据以分块形式存储于Parquet格式文件中，每块容纳1000帧，以30fps的帧率同步记录机器人关节状态、视觉观测及时间戳信息，确保了时序一致性与数据完整性。

特点

该数据集显著特点在于其多模态融合架构，同时涵盖六维关节动作向量、双视角视觉观测（顶部与腕部摄像头）及精确的时间同步元数据。视觉数据采用AV1编码存储480×640分辨率视频，兼具高效压缩与清晰细节；动作与状态数据均以浮点精度记录，支持直接用于模仿学习与强化学习算法训练。其结构化特征设计充分契合视觉-语言-动作模型的多模态交互需求。

使用方法

研究者可通过加载Parquet数据文件直接获取帧级观测-动作对，其中观测字段包含状态向量与双路视频索引，动作字段对应六维机械臂控制指令。数据集兼容主流机器人学习库，支持端到端策略训练、行为克隆或离线强化学习任务。视频数据可通过附带的路径模板动态加载，时间戳与帧索引确保了跨模态数据的严格对齐，为模型提供时空一致的训练样本。

背景与挑战

背景概述

svla_so100_sorting数据集诞生于机器人技术蓬勃发展的时代背景下，由HuggingFace的LeRobot团队于2025年创建，旨在支持低成本高效能机器人系统的研究。该数据集基于SmolVLA模型构建，专注于视觉-语言-动作的协同学习，核心研究问题涉及多模态数据在机器人任务中的融合与应用。通过提供丰富的机械臂操作数据，包括关节状态、视觉观测与时间序列信息，该数据集为机器人学习算法的验证与优化提供了重要支撑，对推动具身智能和自动化系统的发展具有显著影响力。

当前挑战

该数据集致力于解决机器人操作任务中的多模态感知与动作生成的挑战，具体包括机械臂在复杂环境中的精确控制、视觉信息与动作指令的实时对齐，以及小样本学习下的泛化能力问题。在构建过程中，面临数据采集的高成本与一致性难题，需协调多传感器（如顶部与腕部摄像头）的同步录制，并确保高维度动作数据的准确标注。此外，数据存储与处理效率亦是一大挑战，需优化大规模视频与状态数据的压缩与检索机制，以保障数据集的实用性与可扩展性。

常用场景

经典使用场景

在机器人操作学习领域，svla_so100_sorting数据集通过记录六自由度机械臂的关节角度与视觉观测数据，为模仿学习算法提供了标准化的训练资源。该数据集典型应用于机器人抓取与分拣任务的策略学习，研究者可利用其多模态数据流训练端到端的视觉运动控制模型，实现从视觉输入到动作输出的直接映射。

解决学术问题

该数据集有效解决了机器人操作任务中样本效率低下与泛化能力不足的核心问题。通过提供高质量的真实机器人操作序列，它支持研究者开发数据驱动的控制策略，显著降低了机器人学习对仿真环境的依赖。其丰富的多模态标注为探索视觉-语言-动作的联合表征学习提供了重要基础，推动了具身智能研究的发展。

衍生相关工作

该数据集催生了多项视觉语言动作模型的创新研究，其中最典型的是SmolVLA框架的开发。相关研究聚焦于多模态表征学习与高效策略蒸馏，推动了轻量级机器人控制算法的发展。后续工作在此基础上扩展了多任务学习框架，探索了跨模态注意力机制在机器人操作中的有效应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

svla_so100_sorting

数据集概述

基本信息

数据集结构

特征

相关论文

引用