RIS-LAD

Name: RIS-LAD
Creator: 厦门大学
Published: 2025-07-28 23:21:03
License: 暂无描述

arXiv2025-07-28 更新2025-07-30 收录

下载链接：

https://github.com/AHideoKuzeA/RIS-LAD/

下载链接

链接失效反馈

官方服务：

资源简介：

RIS-LAD数据集是首个针对低空无人机场景的细粒度参考图像分割基准数据集。该数据集包含13871个精心标注的图像-文本-掩码三元组，从真实的无人机镜头中收集，重点关注小型、杂乱和多视角场景。该数据集突出了在先前基准中不存在的新挑战，例如由于小物体引起的类别漂移和在拥挤的同类别物体下的物体漂移。为了解决这些问题，我们提出了语义感知自适应推理网络（SAARN）。

The RIS-LAD dataset is the first fine-grained referring image segmentation benchmark dataset for low-altitude unmanned aerial vehicle (UAV) scenarios. This dataset contains 13,871 meticulously annotated image-text-mask triplets, collected from real UAV footage, with a focus on small-scale, cluttered, and multi-view scenarios. This dataset highlights new challenges absent in previous benchmarks, such as category drift caused by small objects and object drift under crowded same-category objects. To address these issues, we propose the Semantic-Aware Adaptive Reasoning Network (SAARN).

提供机构：

厦门大学

创建时间：

2025-07-28

搜集汇总

数据集介绍

构建方式

RIS-LAD数据集的构建采用了半自动化的标注流程，结合了先进的计算机视觉技术与多模态大语言模型。具体而言，研究团队从公开的CODrone数据集中筛选出适合低空无人机场景的图像，并通过SAM-2模型生成高质量的实例分割掩码。同时，利用Qwen2.5-VL模型生成与图像内容匹配的自然语言描述，最终通过人工验证和修正确保数据质量。整个流程涵盖了图像选择、对象筛选、掩码生成、描述生成以及人工精修等多个环节，确保了数据集的多样性和准确性。

特点

RIS-LAD数据集作为首个专为低空无人机场景设计的细粒度参考图像分割基准，具有鲜明的特点。该数据集包含13,871个精心标注的图像-文本-掩码三元组，覆盖了多种光照条件和视角变化的复杂场景。其独特之处在于突出了低空无人机视角下的挑战，如微小物体、高密度分布对象以及多视角变化等。此外，数据集还特别关注了类别漂移和对象漂移等新问题，为相关研究提供了丰富的实验素材。

使用方法

RIS-LAD数据集的使用方法主要围绕低空无人机场景下的参考图像分割任务展开。研究人员可以利用该数据集训练和评估模型在复杂场景下的表现，特别是针对微小物体和高密度分布对象的处理能力。数据集已按照7:1:2的比例划分为训练集、验证集和测试集，便于进行模型开发和性能比较。此外，数据集还支持对类别漂移和对象漂移等特定问题的深入研究，为开发新型算法提供了标准化的评估平台。

背景与挑战

背景概述

RIS-LAD数据集由厦门大学多媒体可信感知与高效计算教育部重点实验室的研究团队于2025年创建，是首个针对低空无人机（LAD）场景设计的细粒度参考图像分割（RIS）基准数据集。该数据集包含13,871组经过精细标注的图像-文本-掩码三元组，聚焦于多视角、小目标和密集场景等LAD特有视觉特性，填补了传统遥感图像与常规场景图像之间的研究空白。其创新性体现在通过半自动标注流程整合SAM-2和Qwen2.5-VL模型，实现了对微小目标空间描述的高精度标注，为无人机自主感知系统提供了关键的多模态理解能力测试平台。

当前挑战

RIS-LAD揭示了低空无人机图像分割的两大核心挑战：由微小目标引起的类别漂移（Category Drift）和密集同类目标导致的对象漂移（Object Drift）。在领域问题层面，现有RIS方法难以应对LAD场景中30°-60°斜视角拍摄带来的几何形变、夜间光照变化等复杂条件；在构建过程中，研究团队需解决毫米级目标的语义标注一致性、多模态描述与视觉实体的精准对齐等技术难题，特别是当目标像素占比低于0.1%时，传统标注方法会产生显著偏差。此外，数据集中90%以上实例的掩码覆盖率约束，对标注管线的空间分辨率和语义理解能力提出了极致要求。

常用场景

经典使用场景

在低空无人机（LAD）场景中，RIS-LAD数据集被广泛应用于指代图像分割任务，特别是在处理多视角、高密度和小目标等复杂场景时表现突出。该数据集通过精心标注的图像-文本-掩模三元组，为研究者提供了一个标准化的测试平台，用于评估和优化模型在低空无人机图像中的语义分割能力。其独特的斜视角拍摄和夜间场景覆盖，进一步扩展了数据集的适用场景，使其成为该领域的重要基准。

衍生相关工作

围绕RIS-LAD数据集，研究者们已衍生出一系列经典工作。例如，基于语义分解的FIANet通过多尺度增强模块提升模态判别能力；RMSIN设计了旋转感知模块以适应遥感图像特性；RSRefSeg结合CLIP和SAM模型生成隐式视觉激活。这些工作不仅验证了数据集的挑战性，也推动了指代分割技术在低空无人机场景中的持续创新，形成了从基础方法到应用优化的完整研究链条。

数据集最近研究