osmAG-LLM
收藏arXiv2025-07-17 更新2025-07-19 收录
下载链接:
https://anonymous.4open.science/r/osmAG-LLM
下载链接
链接失效反馈官方服务:
资源简介:
osmAG-LLM数据集是一个基于osmAG框架的对象级语义地图,通过结合大型语言模型的语义先验和在线开放词汇检测,实现了对动态或未映射物体的检索。数据集以文本形式存储,易于LLM解析,并包含了丰富的语义信息,同时保留了层次结构和拓扑结构,有助于LLM进行基于语义的推理。该数据集在模拟和现实世界校园建筑中进行了广泛的实验,并成功开源了相关代码和数据集。
The osmAG-LLM dataset is an object-level semantic map based on the osmAG framework. It enables the retrieval of dynamic or unmapped objects by combining the semantic priors of large language models and online open-vocabulary detection. Stored in text format that is easy for LLMs to parse, the dataset contains rich semantic information while retaining both hierarchical and topological structures, which facilitates semantic-based reasoning for LLMs. Extensive experiments have been conducted on this dataset in both simulated and real-world campus buildings, and the relevant code and dataset have been successfully open-sourced.
提供机构:
上海科技大学智能感知与人工智能协同创新实验室
创建时间:
2025-07-17
原始信息汇总
osmAG-LLM数据集概述
基本信息
- 数据集名称: osmAG-LLM
- 最后更新时间: 2025年7月3日
- 数据集状态: Coming soon...
相关链接
搜集汇总
数据集介绍

构建方式
osmAG-LLM数据集通过扩展osmAG框架构建,采用OpenStreetMap文本格式的层次化拓扑地图表示,并融合了LabelMaker和视觉语言模型(VLM)的语义增强技术。具体流程包括:利用RGB-D轨迹数据生成几何对象节点,通过VLM生成开放词汇的视角节点,并结合LLM对房间语义描述进行总结,最终形成可被LLM解析的轻量化文本语义地图。该构建方法显著提升了地图的语义丰富性和动态适应性,同时保持了与城市级导航系统的兼容性。
特点
该数据集的核心特点体现在三方面:其一,采用人类与LLM可读的OSM文本格式,通过键值属性实现层次化对象检索;其二,通过融合几何对象节点与开放词汇视角节点,兼顾了精确位置信息与长尾对象查询能力;其三,仅依赖永久性建筑结构进行导航渲染,使地图具备长期有效性和最小更新需求。实验表明,其存储需求仅为基线方法的0.2%-2.1%,在动态环境中展现出显著优势。
使用方法
使用osmAG-LLM需遵循三阶段流程:首先将语义-osmAG地图转换为LLM可理解的简化表示;随后通过结构化提示引导LLM生成按房间排序的响应节点JSON;最终机器人采用在线感知策略,依次导航至响应节点并执行两阶段目标验证——先由开放词汇检测器生成候选框,再经VLM确认目标存在。该方法支持静态对象、重定位对象及未映射对象的三类查询场景,通过渐进式环境感知实现高效检索。
背景与挑战
背景概述
osmAG-LLM数据集由上海科技大学的Fujing Xie、Sören Schwertfeger以及波恩大学的Hermann Blum等研究人员于2025年提出,旨在解决开放词汇对象导航中的动态环境适应问题。该数据集基于osmAG(OpenStreetMap Area Graph)框架,通过结合语义地图与大语言模型(LLMs)的推理能力,实现了对静态、动态及未映射对象的高效检索。其创新性在于将层级化拓扑地图与文本语义表示相结合,为机器人导航提供了环境背景知识,显著提升了在复杂场景下的对象检索成功率。该研究发表在机器人领域顶级会议ICRA上,并为城市级导航与室内对象搜索的融合提供了新的技术范式。
当前挑战
osmAG-LLM数据集面临的核心挑战包括:1) 动态对象定位难题:传统高精度地图因物体频繁移动而快速失效,需通过在线检测与语义先验推理实现动态适应;2) 开放词汇泛化性:需支持未被预定义类别覆盖的长尾对象查询(如"热风枪"),依赖视觉语言模型(VLMs)的零样本识别能力;3) 地图表示效率:需平衡语义丰富度与计算开销,采用文本化OSM格式确保LLM可解析性,同时通过层级结构优化存储空间(仅需0.62MB存储真实场景数据)。构建过程中,多模态数据融合(RGB-D轨迹与VLM描述)与跨模型协同(LabelMaker与ChatGPT-4V)进一步增加了系统集成的复杂性。
常用场景
经典使用场景
在室内机器人导航领域,osmAG-LLM数据集通过结合轻量级语义地图与大语言模型推理能力,为开放词汇目标导航任务提供了创新解决方案。该系统特别适用于动态环境下的物体检索场景,如当目标物体被移动或未被预先映射时,仍能通过语义先验和在线检测实现高效定位。典型应用场景包括办公环境中寻找被同事挪动的工具,或家庭场景中定位未在初始建图中记录的物品。
实际应用
在实际部署中,该系统已成功应用于校园建筑的跨楼层物品检索,包括实验室设备定位(如热风枪)、办公用品查找(如订书机)等场景。特别值得注意的是,在包含5个功能区域、总面积达410平方米的真实环境中,仅需0.62MB的语义地图即可支持90%的物体检索准确率。这种低存储开销与高鲁棒性的组合,使其在服务机器人、物流仓储等需要长期运行的领域展现出显著优势。
衍生相关工作
该数据集催生了多个延伸研究方向:基于Hierarchical Open-Vocabulary 3D Scene Graphs的导航系统优化,通过引入房间级优先搜索策略将路径长度缩短31%;结合LabelMaker与ChatGPT-Vision的混合语义标注框架,在保持几何精度的同时扩展了开放词汇理解能力;针对透明物体检测的改进方案,通过多模态验证机制将反射误判率降低至3.3%。这些工作共同推动了语言引导机器人导航领域的发展。
以上内容由遇见数据集搜集并总结生成



