GridRoute
收藏arXiv2025-05-30 更新2025-06-03 收录
下载链接:
https://github.com/LinChance/GridRoute
下载链接
链接失效反馈官方服务:
资源简介:
GridRoute是一个用于评估大型语言模型(LLM)在网格环境中进行路径规划的基准数据集。该数据集由南通大学交通与土木工程学院、香港林创智能科技有限公司等机构创建,旨在评估LLM如何利用传统算法。数据集内容涉及不同大小的网格环境,数据量未在论文中明确提及,但提到了不同大小的模型参数,如7B到72B。数据集创建过程涉及构造不同复杂性的网格环境,并使用多种算法进行路径规划。GridRoute旨在解决路径规划问题,特别是LLM在路径规划中的能力。该数据集可用于评估LLM在不同环境下的路径规划性能,并探索传统算法与LLM的结合使用。
GridRoute is a benchmark dataset for evaluating large language models (LLMs) in path planning tasks within grid environments. Developed by institutions including the School of Transportation and Civil Engineering at Nantong University and Hong Kong Linchuang Intelligent Technology Co., Ltd., this dataset aims to assess how LLMs leverage traditional algorithms. The dataset covers grid environments of various sizes; the exact volume of data is not specified in the associated paper, yet models with parameter scales ranging from 7B to 72B are referenced. The construction of GridRoute involves creating grid environments with different complexity levels and conducting path planning using multiple algorithms. Targeted at addressing path planning problems, especially evaluating the path planning capabilities of LLMs, this dataset can be utilized to assess the path planning performance of LLMs across diverse environments, as well as to explore the integrated application of traditional algorithms and LLMs.
提供机构:
南通大学交通与土木工程学院, 中国香港林创智能科技有限公司 (LinChance), 中国德雷塞尔大学计算机与信息学院, 美国新南威尔士大学, 澳大利亚
创建时间:
2025-05-30
原始信息汇总
GridRoute 数据集概述
数据集简介
- 研究背景:评估大型语言模型(LLMs)在路径规划任务中与传统算法的协同潜力。
- 核心贡献:
- 提出混合提示技术 Algorithm of Thought (AoT) Prompt。
- 引入 GridRoute Benchmark,评估不同参数规模(7B-72B)的六种 LLMs 在网格环境中的性能(正确性、最优性、效率)。
数据集内容
- 数据生成:
- 包含不同尺寸的网格地图(10×10、20×20、30×30)。
- 可自定义参数:障碍物大小/数量、地图数量、起点-终点对数量。
- 参考路径:基于 Dijkstra 算法生成的基准路径。
- 实验输出:模型生成的路径结果、性能指标、路径可视化图表。
文件结构
data/ ├── dataset.csv # 生成的网格地图数据集 ├── reference_paths.csv # Dijkstra 算法生成的参考路径 ├── overall.csv # 评估指标汇总 results/ ├── output_dir/ # 模型输出结果(CSV 格式) ├── api_planned_paths_figure/ # 路径可视化图像 ├── radar_chart/ # 模型对比雷达图
使用流程
- 生成数据:运行
src/data_generation.py创建自定义网格数据集。 - 生成参考路径:运行
src/reference_paths.py。 - 实验运行:通过
src/api_experiment.py测试不同模型(如 GPT-4)和提示模板。 - 评估与可视化:
- 指标计算:
src/Indicator_evaluation.py - 路径绘制:
src/api_path_drawing.py - 生成雷达图:
src/Radar_chart_of_results.py
- 指标计算:
依赖与配置
- 环境配置:需安装
requirements.txt中的依赖库。 - API 密钥:需在
src/api_experiment.py中配置 OpenAI API 密钥。
许可信息
- 许可证类型:GNU Affero General Public License v3.0 (AGPL-3.0)
搜集汇总
数据集介绍

构建方式
GridRoute数据集通过系统化的网格环境构建方法,在三种不同尺寸(10×10、20×20、30×30)的网格地图中随机生成障碍物与起点-终点对。每个环境配置包含矩形障碍物(尺寸3×3至5×5不等),并确保起点与终点的欧氏距离不低于网格对角线长度的30%。数据生成阶段采用四向广度优先搜索(BFS)验证路径连通性,最终通过约束版Dijkstra算法生成最优路径作为基准真值。环境参数与任务描述均被转化为结构化自然语言提示,支持后续对大语言模型的标准化评估。
特点
该数据集的核心特点体现在三维评估体系:1)路径合规性(CR)检测输出格式与连续性;2)可行性(FR)衡量障碍物规避能力;3)最优性(OR)对比基准路径长度。独创的算法思维提示(AoT)将A*、Dijkstra等经典算法逻辑嵌入提示模板,形成与传统思维链(CoT)的对照实验。数据复杂度随网格尺寸梯度上升,特别设计了无效步长、越界等五类典型错误标签,为分析大语言模型的空间推理缺陷提供细粒度标注。
使用方法
使用GridRoute需遵循三阶段流程:首先加载标准化网格环境描述,包含障碍物坐标与任务约束;其次选择评估范式(独立推理/AoT引导/混合提示),通过自然语言接口与大语言模型交互;最后采用六项核心指标(CR/FR/OR/GM/MSE/RT)量化性能。研究证实AoT-Dijkstra提示在72B参数模型中可使路径最优率提升至75%,而CoT策略在7B小模型上展现更强鲁棒性。该数据集支持扩展研究,包括多目标路径规划与动态障碍物场景的适应性测试。
背景与挑战
背景概述
GridRoute是由Nantong University、HongKong Linchance Intelligent Technology Co., Ltd. (LinChance)、Drexel University和University of New South Wales的研究团队于2025年提出的一个基准测试数据集,旨在评估大型语言模型(LLMs)在网格环境中的路径规划能力。该数据集通过结合传统路径规划算法(如A*、Dijkstra和DFS)与LLMs的推理能力,探索了两者协同工作的潜力。GridRoute的创建填补了现有研究中LLMs与传统算法协同工作研究的空白,为相关领域提供了一个系统化的评估工具。该数据集的影响力主要体现在推动了LLMs在路径规划任务中的应用,并为混合神经符号规划系统的发展提供了新的研究方向。
当前挑战
GridRoute面临的挑战主要包括两个方面:1) 在领域问题方面,GridRoute旨在解决LLMs在路径规划任务中的性能问题,特别是在复杂环境中的路径生成正确性、最优性和效率。传统路径规划算法(如A*和Dijkstra)在这些任务中表现优异,但LLMs的推理能力尚未完全匹配传统算法的性能。2) 在构建过程中,GridRoute需要生成不同复杂度的网格环境,并确保路径的可行性和最优性。此外,将传统算法的逻辑嵌入到LLMs的提示中(如Algorithm of Thought技术)也面临技术挑战,包括如何有效引导LLMs遵循算法逻辑并生成符合要求的路径。
常用场景
经典使用场景
GridRoute数据集在路径规划领域具有广泛的应用价值,特别是在评估大型语言模型(LLMs)与传统算法协同工作的能力方面。该数据集通过构建不同复杂度的网格环境,为研究者提供了一个标准化的测试平台。在经典使用场景中,研究者可以利用GridRoute评估LLMs在独立路径规划任务中的表现,同时探索算法思维提示(AoT)如何提升模型性能。数据集支持多种评估范式,包括独立提示、算法引导提示和混合提示,为路径规划算法的比较研究奠定了坚实基础。
实际应用
在实际应用层面,GridRoute数据集为机器人导航、仓储物流和游戏AI等场景提供了重要技术支撑。在仓库自动化系统中,基于该数据集开发的混合规划算法可优化AGV小车的路径选择;在战略游戏开发中,数据集验证的AoT方法能增强NPC的寻路智能。特别值得注意的是,数据集验证的算法引导策略在资源受限的嵌入式设备上展现出实用价值,通过结合轻量级LLMs与传统算法,实现了实时性与规划质量的平衡,为工业级应用提供了可靠解决方案。
衍生相关工作
GridRoute数据集已催生多个重要的衍生研究方向。LLM-A*工作探索了将LLMs生成子目标与传统A*算法结合的混合架构;PPNL基准在此基础上扩展了自然语言指令下的路径规划评估。近期研究进一步将AoT框架应用于多智能体协同规划场景,如物流配送路径优化。这些工作共同构成了神经符号规划系统的新范式,其中GridRoute提供的标准化评估方法为后续研究建立了可比性基准,推动着LLMs在复杂决策任务中的应用边界不断扩展。
以上内容由遇见数据集搜集并总结生成



