Vincent2025hello/usim

Name: Vincent2025hello/usim
Creator: Vincent2025hello
Published: 2026-04-30 14:30:43
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Vincent2025hello/usim

下载链接

链接失效反馈

官方服务：

资源简介：

USIM是一个大规模水下机器人操作和导航数据集，收集自Stonefish物理模拟器。它包含2,275个片段（1,750个训练片段和525个测试片段），涵盖9个水下场景中的20个任务，以LeRobot v2.1格式存储，并包含双摄像头视频记录。该数据集旨在训练和评估用于自主水下机器人的视觉-语言-动作（VLA）模型，支持在多样化的海底环境中操作。关键特征包括多样的水下场景、双摄像头观察（240×320分辨率）、丰富的本体感觉状态（29维状态向量）以及20个任务（包括抓取、导航、跟踪和运输）。

USIM is a large-scale underwater robot manipulation and navigation dataset collected in the Stonefish physics simulator. It contains 2,275 episodes (1,750 train + 525 test) across 20 tasks in 9 underwater scenarios, formatted in LeRobot v2.1 format with dual-camera video recordings. The dataset is designed to train and evaluate Vision-Language-Action (VLA) models for autonomous underwater robots operating in diverse subsea environments. Key features include diverse underwater scenarios, dual-camera observation (240×320 resolution), rich proprioceptive state (29-dimensional state vector), and 20 tasks spanning grasping, navigation, tracking, and transporting.

提供机构：

Vincent2025hello

搜集汇总

数据集介绍

构建方式

USIM数据集通过Stonefish物理仿真引擎构建，模拟了配备4自由度机械臂和缩比Robotiq夹爪的BlueROV2水下机器人平台。数据集在浅海、水下工厂、工业水池、海底管道、沉船遗址、湖泊及开阔海域等9种水下场景中，采集了涵盖抓取、导航、跟踪与运输4大类共20项任务的2,275个完整回合。每个回合均以LeRobot v2.1格式存储，包含双摄像头（前视与腕部）的240×320分辨率视频记录、29维本体感知状态向量（含关节位置、推进器PWM、IMU、DVL及压力数据）以及13维动作指令。训练集与测试集分别包含1,750和525个回合，总计约90.6万帧图像数据。

特点

该数据集的一大特色在于其高度多样化的水下场景设计，覆盖了从浅海到深海工业设施、沉船及湖泊等真实作业环境，并引入了带干扰物的抓取任务以增强模型鲁棒性。观测模态丰富，整合了双视角视觉信息与包括惯性测量、多普勒测速及深度传感在内的完整状态感知数据。动作空间兼顾了机械臂关节控制与推进器推力指令，使之适用于复合式水下机器人操控。此外，数据采用标准化格式存储，便于利用LeRobot工具链进行高效加载与预处理。

使用方法

使用USIM数据集时，可直接通过LeRobot库加载训练集与测试集：from lerobot.common.datasets.lerobot_dataset import LeRobotDataset；dataset = LeRobotDataset('Vincent2025hello/usim', root='train')。每个回合包含'observation.images.ego'（前视图像）、'observation.images.wrist'（腕部图像）、'observation.state'（状态向量）及'action'（动作指令）等关键字段，可通过键名索引获取NumPy数组。亦支持Hugging Face Datasets库以load_dataset('Vincent2025hello/usim')方式一键加载，便于集成至Python深度学习流水线中进行模型训练与评估。

背景与挑战

背景概述

USIM（Underwater Simulation Dataset）是由Junwen Gu等研究人员于2025年提出的面向水下机器人视觉-语言-动作（VLA）模型的大规模仿真数据集。该数据集依托Stonefish物理模拟器构建，以BlueROV2水下航行器为平台，覆盖浅海、水下工厂、沉船遗址、湖面场景等9种多样化水下环境，包含20项任务、2275个演示片段及逾90万帧双视角视频数据。其核心研究问题在于弥补通用水下机器人操作与导航任务中高质量标注数据的匮乏，为VLA模型在复杂水下环境中的泛化训练与评估提供标准化基准。USIM的发布推动了水下机器人领域从单一感知任务向多模态、高层次自主决策与语言引导操纵的方向演进，对水下勘探、基础设施维护及搜救等应用场景具有重要学术与工程价值。

当前挑战

USIM所应对的领域挑战在于水下机器人普遍面临的水介质光吸收与散射导致的视觉退化、动态洋流与浮力干扰引起的运动控制不稳，以及结构化环境与非结构化作业目标之间的操作差异，这使得陆地上成熟的视觉-语言-动作模型难以直接迁移至水下场景。数据集的构建过程同样面临多重难题：仿真环境中需精确复现水下光照衰减、悬浮粒子散射、流体动力学耦合等物理效应以确保数据真实性；双视角视频与29维本体感知状态（含IMU、DVL、压力传感器数据）的同步采集要求高精度的传感器模型与交互逻辑；此外，20项任务在9种场景下的轨迹规划需人工设计符合实际水下作业规范的策略，对仿真参数与任务逻辑的一致性验证提出了较高要求。

常用场景

经典使用场景

在水下机器人学术研究中，USIM数据集被广泛用于训练与评估视觉-语言-动作（VLA）模型。该数据集涵盖了抓取、导航、跟踪和运输等二十项任务，在九个不同的水下场景中采集，包括浅海、水下工厂、湖泊、沉船遗址和海底管道等。借助双摄像头视角（前向与腕部）和29维的机器人状态信息，研究人员可以通过自然语言指令驱动水下机器人完成复杂操作，从而实现对多任务、多环境通用控制策略的学习与验证。

实际应用

在工程实践层面，USIM数据集支撑着水下自主作业系统的开发与优化。基于该数据训练的模型可应用于海底油气管道巡检、深海考古与沉船探测、水库大坝结构检查、水产养殖设备维护以及海洋环境监测等场景。结合自主水下机器人与机械臂，系统能够根据自然语言指令完成目标抓取、设施搬运、路径跟踪等任务，显著降低了人工干预成本与潜水作业风险，提升了水下作业的智能化水平。

衍生相关工作

USIM数据集的发布催生了一系列后续研究工作。首先，其配套提出的U0模型为水下VLA模型的开源基准奠定了基础，被后续工作广泛用于性能对比与方法改进。其次，该数据激发了面向水下环境的领域适应、数据增强与仿真到现实迁移等方向的研究。此外，研究者基于USIM探索了多模态融合策略，如结合声呐与视觉信息的导航方案。还有工作在其框架上引入了层级式任务分解与在线学习机制，进一步拓展了水下机器人自主决策的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集