AUG
收藏arXiv2024-04-11 更新2024-06-21 收录
下载链接:
https://gitee.com/xiaoyibang/lpg-sgg
下载链接
链接失效反馈官方服务:
资源简介:
AUG数据集是由湖北珞珈实验室创建的,包含400张低空俯瞰视角的城市航空图像。该数据集通过人工标注,涵盖了25,594个对象、16,970个关系和27,175个属性。AUG数据集旨在解决传统仰视视角数据集中存在的对象遮挡问题,提供更清晰的空间关系感知,适用于城市场景图生成任务,如公共安全控制和应急灾害救援等。
The AUG dataset was created by Hubei Luojia Laboratory, which contains 400 urban aerial images taken from a low-altitude bird's-eye perspective. After manual annotation, this dataset encompasses 25,594 objects, 16,970 relationships, and 27,175 attributes. The AUG dataset aims to address the issue of object occlusion existing in traditional overhead-view datasets, providing clearer spatial relationship perception, and is suitable for urban scene generation tasks such as public safety control and emergency disaster rescue.
提供机构:
湖北珞珈实验室
创建时间:
2024-04-11
搜集汇总
数据集介绍

构建方式
在遥感与计算机视觉交叉领域,AUG数据集的构建填补了俯视视角场景图生成任务的空白。该数据集基于已发布的语义无人机数据集,通过人工精细标注完成,共包含400张由无人机在5至35米低空拍摄的高分辨率图像,每张图像尺寸为6000×4000像素。标注过程涵盖了25,594个对象、16,970组关系及27,175个属性,平均每张图像包含63.9个对象、42.4组关系和67.9个属性。对象标注采用水平边界框,并对原始类别进行了细化扩展,例如将“植被”细分为多种植物类型,以增强场景图生成任务的语义丰富性。关系标注不仅包含地理空间关系,还涉及人-人交互与人-物交互,从而全面捕捉城市空中场景的复杂语义结构。
特点
AUG数据集的核心特点在于其独特的俯视视角与高密度对象标注。相较于传统平视视角数据集,俯视视角有效避免了对象间的遮挡问题,提供了更清晰的空间关系感知,特别适合复杂城市场景的理解。数据集中对象分布呈现显著的长尾效应,关系类别涵盖从基础空间关系到复杂交互动作的广泛语义谱系,例如“站立于”、“生长在”等细化谓词,增强了关系的表达力。此外,该数据集首次引入了多标签属性标注,将属性划分为形状、大小、纹理等九个维度,为对象特征学习提供了丰富的中层语义信息。这些特点共同使AUG成为推动空中图像场景图生成研究的关键基准资源。
使用方法
AUG数据集主要用于训练与评估空中图像场景图生成模型,支持对象检测、关系预测与属性分类等多任务学习。典型使用流程始于通过骨干网络提取图像特征,随后利用对象检测模块获取对象位置与类别,并结合多标签属性分类模型增强对象语义表示。针对数据集中潜在关系对数量庞大但有效关系稀疏的挑战,可采用自适应边界框缩放因子方法进行关系对智能筛选,以提升计算效率与模型精度。在场景图生成阶段,建议采用局部保持图卷积网络等专门架构,通过融合对象初始特征与动态更新的邻域信息,在挖掘全局上下文的同时保留局部语境。最终,模型输出以图结构形式呈现对象、属性及其间关系,为高层视觉推理任务提供结构化表示。
背景与挑战
背景概述
在计算机视觉领域,场景图生成(SGG)旨在从图像中解析视觉对象及其语义关系,为高层视觉理解提供结构化表示。传统SGG数据集多基于平视视角,但物体遮挡问题严重限制了空间关系的感知。为填补俯视视角数据集的空白,武汉大学等机构的研究团队于2024年构建并发布了AUG数据集,这是首个专注于城市航拍图像的场景图生成数据集。该数据集包含400张低空俯拍图像,人工标注了25,594个对象、16,970种关系和27,175个属性,平均每张图像涵盖63.9个对象和42.4种关系。AUG的创建不仅推动了航拍图像场景理解的研究,还为城市监控、应急救灾等应用提供了新的数据基础。
当前挑战
AUG数据集面临的挑战主要体现在两个方面:在领域问题层面,航拍图像中物体密度极高且分布不均,导致局部上下文信息易被淹没,传统图卷积网络难以有效保留局部特征;同时,潜在物体关系对数量急剧增加,但其中仅小部分具有实际意义,给关系检测带来巨大计算负担与噪声干扰。在构建过程中,标注工作面临复杂场景下物体类别细粒度划分的难题,例如将“植被”进一步区分为多种植物类型,并需处理人-物交互关系的多样性标注;此外,数据的长尾分布现象显著,高频与低频关系类别的不平衡性对模型训练提出了严峻考验。
常用场景
经典使用场景
在计算机视觉领域,场景图生成任务致力于从图像中解析物体及其语义关系。AUG数据集作为首个面向低空航拍图像的城市场景图生成基准,其经典应用场景聚焦于复杂城市环境的语义理解。该数据集通过俯视视角捕捉城市区域,有效规避了传统平视视角中物体遮挡的局限性,为模型提供了清晰的空间关系感知。研究者利用AUG训练和评估场景图生成模型,以提升对密集物体分布和长距离交互关系的识别能力,尤其在处理高密度物体标注和复杂空间关系预测方面展现出独特价值。
解决学术问题
AUG数据集填补了俯视视角场景图生成数据的空白,解决了传统平视数据集因物体遮挡导致空间关系感知受限的学术难题。通过提供包含25,594个物体、16,970种关系和27,175个属性的标注数据,该数据集支持对物体检测、属性预测和关系分类的联合建模。其意义在于推动了航拍图像语义理解的研究进展,为复杂城市场景中的关系推理提供了可靠基准,促进了视觉关系识别领域向更广阔的应用场景拓展。
衍生相关工作
围绕AUG数据集,研究者提出了局部保持图卷积网络(LPG)和自适应边界框缩放因子(ABS-PRD)等创新方法。LPG通过融合物体初始特征与动态更新的邻域信息,有效保留了复杂场景中的局部上下文;ABS-PRD则针对航拍图像中潜在关系对数量庞大的问题,实现了无意义关系对的智能剪枝。这些工作为航拍场景图生成建立了首个性能基准,并启发了后续研究在关系检测优化、长尾分布处理等方面的探索,推动了该领域算法的发展。
以上内容由遇见数据集搜集并总结生成



