GameTraversalBenchmark (GTB)
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/umair-nasir14/Game-Traversal-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个综合性基准,包含了多种基于2D网格的游戏地图,旨在评估大型语言模型(LLM)的规划能力。此外,该评估工具(GTB)根据语言模型在尽可能少的步骤和生成错误下穿越目标的能力来进行评估。任务目标是通过对游戏地图的穿越来评估大型语言模型的规划能力。
提供机构:
umair-nasir14



