trietlm0306/vla-poursing-seeds-v1

Name: trietlm0306/vla-poursing-seeds-v1
Creator: trietlm0306
Published: 2026-04-11 05:45:33
License: 暂无描述

Hugging Face2026-04-11 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/trietlm0306/vla-poursing-seeds-v1

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). <a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=trietlm0306/vla-poursing-seeds-v1"> <img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/> </a> ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "so_follower", "total_episodes": 135, "total_frames": 65250, "total_tasks": 5, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200, "fps": 15, "splits": { "train": "0:135" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "action": { "dtype": "float32", "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ], "shape": [ 6 ] }, "observation.state": { "dtype": "float32", "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ], "shape": [ 6 ] }, "observation.images.camera1": { "dtype": "video", "shape": [ 720, 1280, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 720, "video.width": 1280, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 15, "video.channels": 3, "has_audio": false } }, "observation.images.camera2": { "dtype": "video", "shape": [ 360, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 360, "video.width": 640, "video.codec": "h264", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 15, "video.channels": 3, "has_audio": false } }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

提供机构：

trietlm0306

搜集汇总

数据集介绍

构建方式

在机器人学习领域，高质量的数据集是推动视觉语言动作模型发展的基石。vla-poursing-seeds-v1数据集依托LeRobot平台构建，通过实际机器人操作采集了135个完整任务片段，总计65250帧数据。数据以分块形式存储于Parquet文件中，每块包含1000帧，确保了高效的数据管理与访问。采集过程中，机器人关节状态与双视角视觉信息被同步记录，形成了多模态时序对齐的数据流，为模型训练提供了丰富的时空上下文。

特点

该数据集的核心特征在于其多模态融合与精细的结构化设计。数据集中包含了六自由度机械臂的关节位置作为动作与状态观测，同时配备了双摄像头视角的视觉流，分别以720p和360p分辨率呈现，帧率稳定在15fps。这种设计使得数据集能够同时支持机器人状态估计、视觉感知与动作生成等多类任务。数据以分块索引方式组织，便于大规模并行加载与处理，且所有特征均以标准化格式存储，确保了数据的一致性与易用性。

使用方法

使用本数据集时，研究者可通过LeRobot或兼容的数据加载工具直接读取Parquet格式的文件。数据集已按训练集划分，涵盖全部135个任务片段，用户可依据帧索引、片段索引或任务索引灵活提取所需数据序列。对于视觉信息，可通过提供的视频路径访问对应的MP4文件。该数据集适用于端到端的视觉动作策略学习、模仿学习或时序预测等研究方向，其结构化的多模态数据为算法验证与模型训练提供了可靠的基础。

背景与挑战

背景概述

在机器人学习领域，视觉语言动作模型正成为实现通用机器人操作的关键技术路径。vla-poursing-seeds-v1数据集依托LeRobot开源框架构建，专注于多模态机器人操作任务的演示数据收集。该数据集由HuggingFace社区的研究人员或团队创建，旨在为视觉语言动作策略的训练提供高质量的真实世界交互轨迹。其核心研究问题聚焦于如何将视觉观察、语言指令与机器人关节动作进行有效对齐，以推动机器人从被动执行向自主理解与决策的范式转变。通过包含135个任务片段和超过6.5万帧的多视角视频与状态数据，该数据集为机器人模仿学习与强化学习算法提供了宝贵的实验基础，有望加速家庭与服务机器人复杂操作技能的习得。

当前挑战

该数据集致力于解决机器人操作任务中视觉语言动作联合建模的挑战，其核心难题在于如何从高维视觉输入与稀疏语言监督中提取鲁棒的特征表示，并生成精确、平滑的关节空间动作序列。具体而言，模型需克服真实场景中光照变化、物体遮挡以及动作时序依赖性带来的学习困难。在构建过程中，数据采集面临诸多挑战：多相机系统的时空同步精度要求极高，以确保视觉观测与机器人状态的一致性；长达数小时的连续操作需被分割为结构化任务片段，并标注对应的语言描述，这一过程耗费大量人力；此外，原始传感器数据的清洗、压缩与标准化处理，需在保留信息完整性与控制存储开销之间取得平衡，这对工程实现提出了严峻考验。

常用场景

经典使用场景

在机器人学习领域，视觉语言动作数据集为模仿学习与策略优化提供了关键支撑。vla-poursing-seeds-v1数据集通过记录机械臂执行倾倒种子等精细操作的多视角视频与关节状态数据，成为训练端到端视觉运动策略的经典资源。研究者利用其同步采集的图像序列与动作指令，能够构建从视觉感知到关节控制的映射模型，尤其适用于验证基于深度学习的机器人操作算法在复杂动态环境中的泛化能力。

解决学术问题

该数据集有效应对了机器人学中视觉运动协调与长时序动作规划的核心挑战。通过提供高帧率多相机视角的观测数据与精确的关节位置标签，它助力解决从原始像素输入直接生成连续控制信号的学术难题。其结构化标注支持对动作分割、状态估计及任务迁移等问题的深入研究，显著降低了真实世界机器人数据收集的壁垒，推动了数据驱动型机器人控制方法的理论进展。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在视觉动作表示学习与跨模态策略蒸馏方向。许多研究借鉴其多模态数据架构，开发了融合视觉特征与关节状态信息的神经网络模型，如时空注意力机制下的动作预测框架。同时，该数据集常被用作基准测试工具，催生了针对部分可观测环境下的模仿学习算法改进，以及基于扩散模型或变换器的机器人策略生成方法，持续丰富着机器人学习领域的算法生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集