CityAVOS

Name: CityAVOS
Creator: 中国长沙国家数字智能建模与仿真重点实验室
Published: 2025-05-14 09:30:03
License: 暂无描述

arXiv2025-05-14 更新2025-05-15 收录

下载链接：

https://anonymous.4open.science/r/CityAVOS-3DF8

下载链接

链接失效反馈

官方服务：

资源简介：

CityAVOS数据集是首个用于评估无人机在城市环境中自主搜索常见城市目标能力的基准数据集。该数据集包含2,420个任务，涵盖六个对象类别，并具有不同的难度级别，为全面评估无人机代理的搜索能力提供了可能。数据集基于EmbodiedCity平台构建，旨在模拟真实城市环境，并包含建筑物、车辆、商店、广告牌、标志和设施等六个类别的对象。每个任务都包含图像和文本描述，无人机代理需要在没有导航指令的情况下自主搜索目标对象。该数据集的创建过程涉及场景限定、目标选择、路径收集、任务补充、初始姿态分配、任务描述细化以及数据集验证和筛选等多个阶段。

The CityAVOS dataset is the first benchmark dataset for evaluating the autonomous search capabilities of unmanned aerial vehicles (UAVs) targeting common urban objects in urban environments. It contains 2,420 tasks covering six object categories with varying difficulty levels, enabling comprehensive assessment of the search performance of UAV agents. Constructed based on the EmbodiedCity platform which simulates realistic urban environments, the dataset includes objects from six categories: buildings, vehicles, shops, billboards, signs, and facilities. Each task is paired with both image and textual descriptions, requiring UAV agents to autonomously search for target objects without prior navigation instructions. The development of this dataset involves multiple stages, including scenario definition, target selection, path collection, task supplementation, initial pose assignment, task description refinement, as well as dataset validation and filtering.

提供机构：

中国长沙国家数字智能建模与仿真重点实验室

创建时间：

2025-05-14

原始信息汇总

数据集概述

数据集名称

CityAVOS

数据集简介

Towards Autonomous UAV Visual Object Search in City Space: Benchmark and Agentic Methodology

最后更新时间

May 14, 2025

数据集内容

data
image
README.md

相关资源

ko-fi.com/tdurieux

搜集汇总

数据集介绍

构建方式

CityAVOS数据集构建于EmbodiedCity平台之上，该平台基于Unreal Engine 5.3开发，通过AirSim插件实现了高保真城市环境模拟。数据采集分为三个阶段：原始轨迹生成阶段通过场景划界、目标选择和路径采集构建基础框架；任务补充阶段通过人工标注初始位姿和任务描述增强任务多样性；最终经过人工验证与过滤确保数据质量。数据集包含2,420个任务，覆盖建筑、车辆、商店等六类城市目标，并按搜索难度分为三个层级，其中小规模唯一目标场景为简单任务，大规模非唯一目标场景为困难任务。

使用方法

使用CityAVOS需通过EmbodiedCity仿真平台加载任务场景，代理接收RGB-D观测数据与目标多模态描述作为输入。评估时采用四大指标：成功率（SR）衡量终端识别精度，路径长度加权成功率（SPL）反映导航效率，平均搜索步数（MSS）统计动作消耗，导航误差（NE）计算最终位姿偏差。基准测试表明，先进方法如PRPSearcher需结合三维认知地图与不确定性地图，通过探索-利用平衡策略实现最优搜索。数据集的层级化设计支持渐进式算法验证，研究者可针对不同难度任务开发语义推理模块或空间探索策略，平台提供的API支持自定义代理与标准评估流程对接。

背景与挑战

背景概述

CityAVOS数据集由长沙国防科技大学数字智能建模与仿真国家重点实验室联合清华大学电子工程系于2025年提出，是首个面向城市空间无人机自主视觉目标搜索（AVOS）任务的基准数据集。该数据集基于Unreal Engine 5.3构建的高保真城市仿真平台EmbodiedCity，包含2,420个涵盖建筑物、车辆、商店等六类城市目标的搜索任务，并按照场景规模和目标独特性划分为三个难度等级。作为城市空间 embodied intelligence 研究的重要基础设施，CityAVOS通过多模态任务描述（图像+文本）和零样本搜索设定，推动了无人机在物流配送、应急救援等领域的自主决策能力研究。其创新性的三维语义认知映射架构为后续视觉-语言导航、空间推理等研究提供了标准化评估框架。

当前挑战

CityAVOS面临的挑战主要体现在任务和构建两个维度：在任务层面，城市环境的语义冗余性导致传统点云语义网格映射效率低下（如商铺招牌与目标商店的区分需厘米级精度）；相似物体干扰（如连锁店铺的视觉相似性）使得远程推理准确率下降60%；而城市空间的遮挡结构则引发探索-利用权衡难题（盲区占比达场景40%时搜索效率锐减）。在构建层面，数据集需解决三维场景语义标注一致性（跨视角标注误差<0.5m）、多模态任务描述对齐（图像-文本匹配准确率98.7%）、以及动态环境模拟（行人/车辆交互频率15Hz）等关键技术难题，这些挑战通过结合MLLM语义推理与专业标注团队的交叉验证得以攻克。

常用场景

经典使用场景

CityAVOS数据集在无人机自主视觉对象搜索（AVOS）任务中具有广泛的应用价值。其经典使用场景包括无人机在复杂城市环境中搜索特定目标对象，如商店、广告牌、车辆等。通过结合视觉和文本信息，无人机能够在无外部导航辅助的情况下，自主探索并定位目标对象。该数据集为研究人员提供了一个标准化的测试平台，用于评估和优化无人机在真实城市环境中的搜索能力。

解决学术问题

CityAVOS数据集解决了无人机在城市环境中自主搜索目标对象时面临的多个学术问题。首先，它通过提供丰富的语义信息和空间结构数据，帮助研究人员优化语义感知和空间推理算法。其次，数据集中的多模态信息（如图像和文本）为研究多模态大语言模型（MLLMs）在目标推理中的应用提供了基础。此外，数据集还支持探索无人机在复杂环境中的探索-利用平衡问题，为相关算法的开发和验证提供了重要支持。

实际应用

CityAVOS数据集的实际应用场景包括物流配送、紧急救援和城市监控等领域。在物流配送中，无人机可以利用该数据集训练自主搜索目标商店或配送点的能力，提高配送效率。在紧急救援中，无人机可以快速定位目标对象（如被困人员或危险源），为救援行动提供关键信息。此外，城市监控中的目标搜索任务也可以通过该数据集进行算法优化，提升监控系统的智能化水平。

数据集最近研究