VDD-RIS

Hugging Face2025-08-15 更新2025-08-16 收录

下载链接：

https://huggingface.co/datasets/lironui/VDD-RIS

下载链接

链接失效反馈

官方服务：

资源简介：

VDD-RIS是一个扩展自原始VDD数据集的大型无人机基准图像分割数据集。它收集了中国南京23个地点的图像，涵盖了城市、乡村、工业和自然景观等多种环境。数据集特点是拍摄角度和高度的多样性，包括30度、60度和90度视角，以及50到120米的高度。此外，数据集还包含了时间和季节上的变化。所有图像均裁剪为1024×1024像素，并使用特定类别的最小区域阈值进行过滤。

VDD-RIS is a large-scale drone-based benchmark image segmentation dataset extended from the original VDD dataset. It collects images from 23 locations across Nanjing, China, covering diverse environments including urban, rural, industrial and natural landscapes. The dataset features diverse shooting angles and altitudes, with viewpoints at 30°, 60° and 90°, as well as altitudes ranging from 50 to 120 meters. Additionally, it incorporates temporal and seasonal variations. All images are cropped to 1024×1024 pixels and filtered using minimum area thresholds for specific categories.

创建时间：

2025-08-14

搜集汇总

数据集介绍

构建方式

VDD-RIS数据集作为基于无人机的指代图像分割大规模数据集，其构建过程体现了严谨的工程设计与生态多样性考量。原始数据采集于中国南京23个地理点位，通过多角度（30°、60°、90°俯角）和多高度（50-120米）的无人机航拍策略，系统覆盖了城市、乡村、工业区及自然景观等多元场景。数据预处理阶段采用1024×1024像素的统一裁剪标准，并基于类别特定面积阈值进行图块筛选，确保样本质量与任务适配性。文本标注部分则通过Qwen和LLaMA大模型生成指代表达式，形成XML格式的语义描述文件。

特点

该数据集的核心价值在于其多维度的场景表征能力。时空双重多样性体现在不同季节、不同时段的采样策略，而相机参数的系统性变化则构建了丰富的视角特征空间。技术层面，1024×1024像素的高分辨率图像保留了足够的细粒度细节，三类俯仰角度与四种飞行高度的组合有效模拟了真实应用场景的复杂性。值得注意的是，数据集严格遵循原始VDD的官方划分标准，包含1,269张训练图、399张验证图和273张测试图，为算法评估提供了可靠基准。

使用方法

研究者需通过官方渠道获取原始VDD数据后，借助AeroReformer工具链完成数据预处理。数据集采用三文件夹结构组织：PNG格式的灰度分割掩码、Qwen模型生成的XML指代表达文件，以及LLaMA模型生成的同类文件。使用时应特别注意文本标注可能存在的大模型生成误差，建议通过交叉验证提升可靠性。基准测试可直接采用预设的数据划分方案，其中验证集和测试集的设计确保了模型性能评估的科学性。

背景与挑战

背景概述

VDD-RIS数据集作为无人机视觉领域的重要资源，由南京地区23个不同地理位置的航拍数据扩展而来，其构建工作源于对复杂场景下参考图像分割技术的前沿探索。该数据集由多机构联合开发，通过多角度（30°/60°/90°）、多高度（50-120米）的采集方式，融合了城市、乡村、工业区及自然景观等多样化场景，并特别考虑了时间维度与季节变化的覆盖。1024×1024像素的标准图像尺寸与基于类别的最小区域阈值设计，体现了研究者对航拍图像细粒度解析需求的深刻理解，为无人机自主感知与决策系统提供了关键数据支持。

当前挑战

该数据集面临的核心挑战体现在算法与应用两个层面：在领域问题层面，多角度航拍图像中目标尺度剧烈变化、光照条件动态范围大等问题，对参考图像分割模型的鲁棒性提出极高要求；低空视角下复杂背景与微小目标的交织进一步加剧了语义分割的难度。在构建过程层面，大语言模型生成的文本描述存在语义不一致性，需通过人工校验与算法过滤双重机制确保标注质量；原始数据不可再分发的限制，也导致研究者必须通过复杂预处理流程重构数据集，这对实验复现的便捷性构成显著障碍。季节性变化带来的场景外观差异，则要求算法具备跨域适应能力。

常用场景

经典使用场景

在无人机视觉领域，VDD-RIS数据集为基于参考的图像分割任务提供了丰富的实验素材。该数据集通过多角度、多高度的航拍图像，涵盖了城市、乡村、工业区等多种复杂场景，为研究者测试和优化图像分割算法提供了标准化的基准。特别是在处理低空航拍图像时，其1024×1024像素的高分辨率特性能够有效捕捉地面目标的细节特征。

衍生相关工作

基于VDD-RIS的基准特性，学术界已衍生出多项重要研究成果。AeroReformer框架利用该数据集开发了针对航拍图像的专用Transformer架构，显著提升了分割精度。部分团队结合Qwen和LLaMA生成的文本描述，开创了无人机视觉-语言联合建模的新范式。这些工作持续推动着智能遥感分析技术的边界扩展。

数据集最近研究