UAVid-RIS

Hugging Face2025-08-15 更新2025-08-16 收录

下载链接：

https://huggingface.co/datasets/lironui/UAVid-RIS

下载链接

链接失效反馈

官方服务：

资源简介：

UAVid-RIS数据集是一个用于无人机基础上指向图像分割的新颖数据集，从原始的UAVid数据集派生而来，专为在复杂城市环境中进行无人机场景理解设计。该数据集包含了大约45度角的斜视航空影像，这些影像提供了比俯视图像更丰富的上下文信息。数据是从无人机在大约50米高空的4K视频记录中提取的高分辨率帧。影像内容覆盖了多种街道场景，包括车辆、行人、建筑物、道路、植被、广告牌和交通基础设施等对象。所有图像都被裁剪成1024×1024像素的大小，并且在生成过程中应用了类别特定的最小面积阈值以确保有意义的补丁选择。由于处理后的数据集无法重新分发，用户需要从UAVid官方网站下载原始数据集，并按照AeroReformer提供的预处理步骤生成所需数据。

The UAVid-RIS dataset is a novel dataset for UAV-based oblique image segmentation, derived from the original UAVid dataset and specifically designed for UAV scene understanding in complex urban environments. It contains oblique aerial imagery captured at an approximate 45-degree angle, which provides richer contextual information than nadir-looking top-down images. The data consists of high-resolution frames extracted from 4K video recordings taken by UAVs flying at an altitude of around 50 meters. The imagery covers diverse street scenes, including objects such as vehicles, pedestrians, buildings, roads, vegetation, billboards, and traffic infrastructure. All images are cropped to a size of 1024×1024 pixels, and class-specific minimum area thresholds are applied during the dataset generation process to ensure the selection of meaningful patches. Since the processed dataset cannot be redistributed, users need to download the original dataset from the official UAVid website and generate the required data following the preprocessing steps provided by AeroReformer.

创建时间：

2025-08-14

搜集汇总

数据集介绍

构建方式

UAVid-RIS数据集基于原始UAVid数据集构建，专注于无人机视角下的指代图像分割任务。数据采集采用45度斜视角的无人机航拍技术，飞行高度约50米，从4K视频中提取高分辨率帧。所有图像经过标准化裁剪至1024×1024像素，并通过类别特定最小面积阈值筛选确保样本质量。由于版权限制，使用者需从官方渠道获取原始数据后，按照指定预处理流程重构数据集。

特点

该数据集的核心价值在于其独特的斜视角航拍视角，相较于传统正射影像能提供更丰富的场景上下文信息。数据涵盖城市环境中车辆、行人、建筑物等多样目标，每个样本配套灰度分割掩码和由Qwen与LLaMA模型生成的XML格式文本描述。严格遵循原始数据集划分标准，包含7,035张图像的三组标准化数据分割，为算法评估提供可靠基准。

使用方法

研究者需首先访问UAVid官网获取原始数据，通过AeroReformer工具库执行预处理流程生成标准格式数据。数据集提供三种标注形态：灰度分割掩码、Qwen模型生成的指代表述及LLaMA模型生成的替代表述，支持多模态算法开发。建议使用者注意语言模型生成的文本可能存在误差，应结合视觉数据进行交叉验证。

背景与挑战

背景概述

UAVid-RIS数据集作为无人机视觉领域的重要资源，由研究团队基于原始UAVid数据集于近年构建，专注于解决倾斜视角下的参考图像分割难题。该数据集由多所高校联合开发，旨在推动城市复杂场景中动态目标识别的算法研究。其45度斜拍视角和50米低空航拍特性，为建筑、车辆、行人等多元目标的语义理解提供了独特的数据视角，显著提升了无人机在智慧城市、交通监控等应用中的场景解析能力。

当前挑战

该数据集面临的核心挑战体现在算法与应用两个维度。在算法层面，倾斜视角导致的尺度变化、遮挡和透视畸变对参考表达与图像分割的精准对齐提出了更高要求；在数据构建层面，大语言模型生成的文本描述存在语义一致性风险，且4K视频帧处理中的类别面积阈值设定可能影响小目标识别效果。此外，原始数据需经特定预处理才能使用的设定，客观上增加了研究者的技术门槛。

常用场景

经典使用场景

在无人机视觉领域，UAVid-RIS数据集为复杂城市场景中的目标分割与语义理解提供了重要支持。该数据集通过倾斜45度的航拍视角，捕捉了建筑物、车辆、行人等多类目标的丰富空间信息，成为开发遥感图像分割算法的基准测试平台。其1024×1024像素的高分辨率图像特别适合验证基于深度学习的实例分割模型在动态环境中的鲁棒性。

解决学术问题

该数据集有效解决了无人机视觉中跨模态语义对齐的学术难题。通过整合视觉图像与LLM生成的文本描述，为指代图像分割任务建立了新的研究范式。其提供的斜视角数据弥补了传统正射影像在三维场景理解上的不足，推动了空间上下文建模、小目标检测等关键技术发展，对智慧城市、灾害监测等领域具有理论突破意义。

衍生相关工作

基于该数据集衍生的AeroReformer框架创新性地解决了航拍图像几何畸变问题，相关论文被CVPR等顶会收录。后续研究进一步拓展了多模态融合方向，如将视觉语言预训练模型应用于无人机导航系统，这些工作显著提升了无人机自主感知的智能化水平。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集