nser-ibvs-mask-splitter-dataset

Hugging Face2026-01-24 更新2026-01-25 收录

无人机控制

视觉伺服

数据链接：

https://huggingface.co/datasets/brittleru/nser-ibvs-mask-splitter-dataset 数据链接链接失效反馈

官方服务：

资源简介：

该数据集用于训练Mask Splitter神经网络，这是NSER-IBVS视觉伺服框架的关键组件，用于自主无人机控制。网络学习将车辆分割掩码分为前部和后部区域，使分析IBVS控制器能够计算精确的速度命令。数据集包含模拟和真实世界两部分数据：模拟数据来自UE4 Bunker环境，真实数据由Parrot Anafi 4K无人机采集。数据格式包括RGB图像、完整分割掩码、前部掩码和后部掩码，分辨率均为640x360。数据集总规模为30,660张图像，其中21,439张包含车辆，9,221张为纯环境图像。数据集主要用于视觉伺服和机器人感知研究，支持模拟到真实的迁移学习。

This dataset is designed to train the Mask Splitter neural network, a critical component of the NSER-IBVS visual servoing framework for autonomous unmanned aerial vehicle (UAV) control. The network learns to partition vehicle segmentation masks into front and rear regions, allowing the analytical IBVS controller to calculate precise velocity commands. The dataset comprises two subsets: simulated and real-world data. The simulated data is sourced from the UE4 Bunker environment, while the real-world data is collected using a Parrot Anafi 4K UAV. The dataset includes RGB images, full segmentation masks, front masks, and rear masks, all with a resolution of 640×360. The total number of images in the dataset is 30,660, of which 21,439 contain vehicles and 9,221 are pure environment-only images. This dataset is primarily utilized for research in visual servoing and robotic perception, and supports sim-to-real transfer learning.

创建时间：

2026-01-24

原始信息汇总

NSER-IBVS Mask Splitter 数据集概述

基本信息

数据集名称：NSER-IBVS Mask Splitter Dataset
许可证：afl-3.0
任务类别：图像分割
具体任务：语义分割
语言：英语
标签：机器人学、无人机、视觉伺服、分割、计算机视觉、四旋翼飞行器、PyTorch、YOLO
数据规模：10K < n < 100K
数据集大小：11GB
标注创建者：人类、机器辅助

数据集描述

该数据集用于训练 Mask Splitter 神经网络，这是用于自主无人机控制的 NSER-IBVS 视觉伺服框架的关键组成部分。该网络学习将车辆分割掩码拆分为前部和后部区域，使分析型 IBVS 控制器能够计算精确的速度命令。

数据集结构

数据集包含两个配置：

sim：仿真数据（UE4 Bunker 环境）
real：真实世界数据

每个配置包含以下分割：

train
validation

数据格式

组件	格式	分辨率	描述
`image`	PNG	640x360	无人机摄像头的 RGB 帧
`segmentation_mask`	PNG (二值)	640x360	完整的车辆掩码
`front_mask`	PNG (二值)	640x360	手动标注的车辆前部区域
`back_mask`	PNG (二值)	640x360	手动标注的车辆后部区域
`scene`	string	-	场景名称

命名约定：images/、segmented/ 和 labels/ 目录中的文件共享相同的名称以实现简单对应。

场景详情

仿真场景（UE4 Bunker 环境）

训练场景：

around-car-30-45-60-75-90-high-quality - 各种角度，高渲染质量
around-car-30-45-60-75-90-low-quality - 各种角度，低渲染质量
around-car-90-75-60-45-30-low-quality - 反向角度序列
just-environment-high-quality - 仅环境帧（负样本）
just-environment-low-quality - 仅环境帧（负样本）

验证场景：

around-car-45-high-quality
around-car-45-low-quality
around-car-45-low-quality-car-at-45

真实世界场景

使用 Parrot Anafi 4K 无人机跟踪真实车辆拍摄。

训练场景：

real-30-45-60-75-90 - 各种角度
just-environment-real - 仅环境帧（负样本）

验证场景：

real-val

数据集统计

分割	领域	图像数量	包含车辆	仅环境
Train	Sim	14,693	10,114	4,579
Train	Real	13,760	9,118	4,642
Val	Sim	1,123	1,123	-
Val	Real	1,084	1,084	-
总计	-	30,660	21,439	9,221

仿真数据统计

训练集：

场景	图像数量	类型
`around-car-30-45-60-75-90-high-quality`	2,034	车辆
`around-car-30-45-60-75-90-low-quality`	3,212	车辆
`around-car-90-75-60-45-30-low-quality`	4,868	车辆
`just-environment-high-quality`	2,129	环境
`just-environment-low-quality`	2,450	环境

验证集：

场景	图像数量	类型
`around-car-45-high-quality`	343	车辆
`around-car-45-low-quality`	391	车辆
`around-car-45-low-quality-car-at-45`	389	车辆

真实世界数据统计

训练集：

场景	图像数量	类型
`just-environment-real`	4,642	环境
`real-30-45-60-75-90`	9,118	车辆

验证集：

场景	图像数量	类型
`real-val`	1,084	车辆

预期用途

该数据集适用于：

训练和评估掩码分割或部件感知分割模型
视觉伺服和机器人感知研究
仿真到真实世界的迁移研究

不适用于：

通用目标检测基准测试
自动驾驶数据集

限制与偏差

车辆类别主要限于玩具车。
摄像机视角为无人机安装（俯视/斜视）。
光照条件受模拟器和室内真实世界拍摄的限制。
不包含夜间数据。

引用

如果使用此数据集，请引用： bibtex @InProceedings{Mocanu_2025_ICCV, author = {Mocanu, Sebastian and Nae, Sebastian-Ion and Barbu, Mihai-Eugen and Leordeanu, Marius}, title = {Efficient Self-Supervised Neuro-Analytic Visual Servoing for Real-time Quadrotor Control}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops}, month = {October}, year = {2025}, pages = {1744-1753} }

搜集汇总

数据集介绍

构建方式

在无人机视觉伺服控制领域，精准感知是实现自主飞行的基石。NSER-IBVS Mask Splitter 数据集的构建采用了仿真与真实数据并行的策略，通过虚幻引擎4（UE4）的Bunker环境生成高保真仿真序列，并利用Parrot Anafi 4K无人机采集真实世界跟踪车辆的影像。数据标注过程结合了人工与机器辅助，对每帧图像中的车辆分割掩码进行了精细的前后区域划分，生成了对应的二值化掩码标签。数据集总计包含超过三万张图像，涵盖了多种视角、渲染质量及包含车辆与否的场景，为模型训练提供了丰富且结构化的视觉素材。

特点

该数据集的核心特征在于其专为部件感知分割任务设计的标注体系。除了提供标准的RGB图像和整体车辆分割掩码外，还额外包含了手动标注的车辆前部与后部区域掩码，这种细粒度的标注方式直接服务于视觉伺服控制中精确速度指令的计算需求。数据集在结构上清晰区分了仿真与真实两大域，并进一步按场景、渲染质量及是否包含车辆进行了细致划分，这种多层次的组织结构便于开展仿真到真实的迁移学习研究。所有图像均统一为640x360分辨率，且文件命名遵循一致性原则，确保了数据关联与加载的高效性。

使用方法

为便利研究使用，该数据集提供了多样化的访问途径。用户可通过Hugging Face Hub的`snapshot_download`函数下载整个数据集或特定子集，亦可利用`datasets`库的`load_dataset`接口，按配置（sim或real）和划分（train或validation）灵活加载数据。数据集条目以字典形式呈现，包含图像、分割掩码及前后部掩码等关键字段。为适配深度学习流程，官方示例提供了将数据转换为PyTorch DataLoader的完整代码，包括图像预处理、四通道输入构建以及双通道目标堆叠。用户还可参照提供的训练与推理脚本，快速集成Mask Splitter神经网络模型进行任务特定的开发与验证。

背景与挑战

背景概述

在自主机器人视觉伺服领域，精确的感知与控制是实现动态环境交互的核心。NSER-IBVS Mask Splitter数据集由SpaceTime-Vision-Robotics Laboratory于2025年构建，旨在支持神经解析视觉伺服框架中掩码分割网络的训练。该数据集聚焦于解决无人机在跟踪车辆时，如何从语义分割掩码中精准分离出目标的前后区域，从而为解析控制器提供几何信息以生成速度指令。通过融合仿真与真实世界数据，该数据集推动了视觉伺服方法从模拟到现实的迁移研究，并为实时四旋翼控制提供了关键的感知基准。

当前挑战

该数据集旨在应对视觉伺服中部分感知的挑战，即从单一车辆掩码中区分前后区域，这对依赖几何模型的传统方法构成了显著困难，因其需要精确的部件级语义理解。在构建过程中，研究人员面临仿真与真实数据域差异的挑战，需确保在虚幻引擎渲染的多样角度与质量场景下，以及真实无人机捕获的有限光照与视角条件下，标注的前后掩码保持几何一致性与高精度。此外，数据集中车辆类别与场景的局限性，也要求模型具备良好的泛化能力以应对现实世界的复杂性。

常用场景

经典使用场景

在机器人视觉伺服领域，NSER-IBVS Mask Splitter数据集为训练掩码分割神经网络提供了核心支持。该数据集通过提供包含完整车辆分割掩码及前、后区域精细标注的图像，使模型能够学习从单一掩码中解析出车辆的结构性部件。这一过程是神经解析视觉伺服框架的关键环节，旨在提升无人机在动态环境中对目标车辆进行实时跟踪与控制的精度与鲁棒性。

实际应用

在实际应用中，该数据集直接服务于无人机自主跟踪与导航系统的开发。通过训练出的掩码分割模型，无人机能够仅凭机载摄像头实时区分车辆的前后部分，进而计算出精确的速度指令以保持相对位姿。这种能力在物流配送、基础设施巡检及协同编队等场景中具有重要价值，为实现高效、安全的近距离自主飞行提供了可靠的感知基础。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在神经解析视觉伺服框架的构建与优化上。相关研究探索了如何将掩码分割网络与基于图像的视觉伺服控制器进行端到端或松耦合集成，以提升系统在仿真与现实环境中的泛化性能。此外，一系列工作致力于利用该数据集的仿真-真实双域特性，研究领域自适应与迁移学习策略，以降低对大量真实标注数据的依赖，推动了数据高效型机器人学习算法的发展。

以上内容由遇见数据集搜集并总结生成