osmAG-LLM

Name: osmAG-LLM
Creator: 上海科技大学智能感知与人工智能协同创新实验室
Published: 2025-07-17 11:14:37
License: 暂无描述

arXiv2025-07-17 更新2025-07-19 收录

下载链接：

https://anonymous.4open.science/r/osmAG-LLM

下载链接

链接失效反馈

官方服务：

资源简介：

osmAG-LLM数据集是一个基于osmAG框架的对象级语义地图，通过结合大型语言模型的语义先验和在线开放词汇检测，实现了对动态或未映射物体的检索。数据集以文本形式存储，易于LLM解析，并包含了丰富的语义信息，同时保留了层次结构和拓扑结构，有助于LLM进行基于语义的推理。该数据集在模拟和现实世界校园建筑中进行了广泛的实验，并成功开源了相关代码和数据集。

The osmAG-LLM dataset is an object-level semantic map based on the osmAG framework. It enables the retrieval of dynamic or unmapped objects by combining the semantic priors of large language models and online open-vocabulary detection. Stored in text format that is easy for LLMs to parse, the dataset contains rich semantic information while retaining both hierarchical and topological structures, which facilitates semantic-based reasoning for LLMs. Extensive experiments have been conducted on this dataset in both simulated and real-world campus buildings, and the relevant code and dataset have been successfully open-sourced.

提供机构：

上海科技大学智能感知与人工智能协同创新实验室

创建时间：

2025-07-17

原始信息汇总

osmAG-LLM数据集概述

基本信息

数据集名称: osmAG-LLM
最后更新时间: 2025年7月3日
数据集状态: Coming soon...

相关链接

支持链接: https://ko-fi.com/tdurieux

搜集汇总

数据集介绍

构建方式

osmAG-LLM数据集通过扩展osmAG框架构建，采用OpenStreetMap文本格式的层次化拓扑地图表示，并融合了LabelMaker和视觉语言模型（VLM）的语义增强技术。具体流程包括：利用RGB-D轨迹数据生成几何对象节点，通过VLM生成开放词汇的视角节点，并结合LLM对房间语义描述进行总结，最终形成可被LLM解析的轻量化文本语义地图。该构建方法显著提升了地图的语义丰富性和动态适应性，同时保持了与城市级导航系统的兼容性。

特点

该数据集的核心特点体现在三方面：其一，采用人类与LLM可读的OSM文本格式，通过键值属性实现层次化对象检索；其二，通过融合几何对象节点与开放词汇视角节点，兼顾了精确位置信息与长尾对象查询能力；其三，仅依赖永久性建筑结构进行导航渲染，使地图具备长期有效性和最小更新需求。实验表明，其存储需求仅为基线方法的0.2%-2.1%，在动态环境中展现出显著优势。

使用方法

使用osmAG-LLM需遵循三阶段流程：首先将语义-osmAG地图转换为LLM可理解的简化表示；随后通过结构化提示引导LLM生成按房间排序的响应节点JSON；最终机器人采用在线感知策略，依次导航至响应节点并执行两阶段目标验证——先由开放词汇检测器生成候选框，再经VLM确认目标存在。该方法支持静态对象、重定位对象及未映射对象的三类查询场景，通过渐进式环境感知实现高效检索。

背景与挑战

背景概述

osmAG-LLM数据集由上海科技大学的Fujing Xie、Sören Schwertfeger以及波恩大学的Hermann Blum等研究人员于2025年提出，旨在解决开放词汇对象导航中的动态环境适应问题。该数据集基于osmAG（OpenStreetMap Area Graph）框架，通过结合语义地图与大语言模型（LLMs）的推理能力，实现了对静态、动态及未映射对象的高效检索。其创新性在于将层级化拓扑地图与文本语义表示相结合，为机器人导航提供了环境背景知识，显著提升了在复杂场景下的对象检索成功率。该研究发表在机器人领域顶级会议ICRA上，并为城市级导航与室内对象搜索的融合提供了新的技术范式。

当前挑战

osmAG-LLM数据集面临的核心挑战包括：1) 动态对象定位难题：传统高精度地图因物体频繁移动而快速失效，需通过在线检测与语义先验推理实现动态适应；2) 开放词汇泛化性：需支持未被预定义类别覆盖的长尾对象查询（如"热风枪"），依赖视觉语言模型（VLMs）的零样本识别能力；3) 地图表示效率：需平衡语义丰富度与计算开销，采用文本化OSM格式确保LLM可解析性，同时通过层级结构优化存储空间（仅需0.62MB存储真实场景数据）。构建过程中，多模态数据融合（RGB-D轨迹与VLM描述）与跨模型协同（LabelMaker与ChatGPT-4V）进一步增加了系统集成的复杂性。

常用场景

经典使用场景

在室内机器人导航领域，osmAG-LLM数据集通过结合轻量级语义地图与大语言模型推理能力，为开放词汇目标导航任务提供了创新解决方案。该系统特别适用于动态环境下的物体检索场景，如当目标物体被移动或未被预先映射时，仍能通过语义先验和在线检测实现高效定位。典型应用场景包括办公环境中寻找被同事挪动的工具，或家庭场景中定位未在初始建图中记录的物品。

实际应用

在实际部署中，该系统已成功应用于校园建筑的跨楼层物品检索，包括实验室设备定位（如热风枪）、办公用品查找（如订书机）等场景。特别值得注意的是，在包含5个功能区域、总面积达410平方米的真实环境中，仅需0.62MB的语义地图即可支持90%的物体检索准确率。这种低存储开销与高鲁棒性的组合，使其在服务机器人、物流仓储等需要长期运行的领域展现出显著优势。

衍生相关工作

该数据集催生了多个延伸研究方向：基于Hierarchical Open-Vocabulary 3D Scene Graphs的导航系统优化，通过引入房间级优先搜索策略将路径长度缩短31%；结合LabelMaker与ChatGPT-Vision的混合语义标注框架，在保持几何精度的同时扩展了开放词汇理解能力；针对透明物体检测的改进方案，通过多模态验证机制将反射误判率降低至3.3%。这些工作共同推动了语言引导机器人导航领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集