LLM-WikiRace
收藏arXiv2026-02-20 更新2026-02-24 收录
下载链接:
https://llmwikirace.github.io
下载链接
链接失效反馈官方服务:
资源简介:
LLM-WikiRace是由牛津大学、伦敦大学学院等机构联合创建的基准测试数据集,旨在评估大型语言模型在维基百科超链接图谱上的规划与推理能力。该数据集基于2025年6月的维基百科快照构建,包含549,232个页面节点,精心设计了450个导航任务(200个简单、150个中等和100个困难级别)。数据通过计算页面间最短路径长度来定义难度等级,要求模型在仅观察当前页面的限制下进行多步规划。该数据集主要应用于评估语言模型的长程规划、语义推理和知识运用能力,揭示了当前模型在复杂信息空间导航中的局限性。
LLM-WikiRace is a benchmark dataset jointly created by the University of Oxford, University College London (UCL), and other institutions, designed to evaluate the planning and reasoning capabilities of Large Language Models (LLMs) on the Wikipedia hyperlink graph. This dataset is constructed based on the June 2025 Wikipedia dump, containing 549,232 page nodes, and includes 450 carefully designed navigation tasks (200 at the easy level, 150 at the medium level, and 100 at the hard level). The difficulty levels are defined by calculating the shortest path length between pages, and the model is required to conduct multi-step planning under the constraint of only observing the current page. This dataset is primarily used to assess the long-range planning, semantic reasoning, and knowledge application abilities of language models, and it reveals the limitations of current models when navigating complex information spaces.
提供机构:
牛津大学; 伦敦大学学院·人工智能中心; 巴塞尔大学
创建时间:
2026-02-19
搜集汇总
数据集介绍
构建方式
LLM-WikiRace基准的构建基于维基百科超链接图这一真实世界知识图谱,采用结构化游戏环境设计。研究团队选取2025年6月23日的维基百科快照,保留包含549,232个页面的最大强连通分量,确保所有页面间均可相互到达。基准定义了三个难度等级:简单、中等和困难,分别对应源页面与目标页面间最短路径长度为3-4步、5-6步和7-8步的页面对,并相应设置了200、150和100个测试实例。在交互过程中,环境向大型语言模型提供结构化提示,包含当前页面、目标页面、访问历史以及经过筛选的50个出站链接选项,以此在控制计算成本的同时,保留任务对规划与知识运用的核心要求。
特点
该数据集的核心特点在于其评估维度兼具真实世界知识运用与长程规划能力。它并非简单的图搜索任务,而是在部分可观察的环境中,要求模型仅依据局部信息进行多步推理与前瞻性规划。基准通过路径长度分层,清晰揭示了模型性能的差异:顶尖模型在简单任务上成功率超过90%,但在困难任务上骤降至25%以下,凸显了当前系统在复杂规划上的局限。尤为重要的是,轨迹分析表明模型常陷入循环而难以重新规划,这暴露了自适应控制与策略修订能力的不足。数据集同时识别出“规划鸿沟”现象,即当世界知识达到一定阈值后,规划能力成为区分模型性能的主导因素。
使用方法
使用LLM-WikiRace进行评估时,模型被置于交互式智能体角色中,依据结构化提示逐步导航。在每个步骤,模型接收当前页面内容、目标页面名称、已访问历史以及一组出站链接标题,随后输出其选择链接的编号。游戏引擎验证步骤并返回新页面,直至到达目标或耗尽30步的预算。评估主要关注成功率、超出最优路径的冗余步数等指标。研究者可通过分析成功与失败的轨迹,深入理解模型在语义推理、枢纽页面策略运用、循环检测与恢复等方面的具体行为,从而诊断其在长视野推理与知识操作化方面的优势与缺陷。该基准为比较不同规模与架构的语言模型提供了开放、稳定的竞技场。
背景与挑战
背景概述
LLM-WikiRace基准由牛津大学与伦敦大学学院的研究团队于2026年提出,旨在系统评估大语言模型在真实世界知识图谱上的规划与推理能力。该基准基于维基百科超链接图构建,要求模型在部分可观测环境中通过多步导航从源页面抵达目标页面,核心研究问题聚焦于大语言模型如何将预训练获得的世界知识转化为长视野规划决策。该数据集通过引入语义丰富的开放域知识环境,弥补了传统规划基准在真实性与复杂性方面的不足,为理解模型在信息空间中的认知局限提供了关键实验平台。
当前挑战
LLM-WikiRace揭示了当前大语言模型在复杂规划任务中面临的多重挑战。在领域问题层面,模型需解决开放域知识图谱上的长视野规划难题,即在局部观测下协调语义推理与多步决策,但实验表明即使顶尖模型在困难任务上的成功率仍低于25%,暴露出规划能力与知识运用间的显著差距。构建过程中的挑战则体现在环境设计的平衡性上:需在保持维基百科图结构真实性的同时,通过限制动作空间与步数预算控制评估成本;同时需精确划分基于最短路径长度的难度层级,以区分模型在知识密集型与规划密集型任务中的表现差异。
常用场景
经典使用场景
在评估大型语言模型规划与推理能力的学术研究中,LLM-WikiRace数据集被广泛用作核心基准测试工具。该数据集基于维基百科超链接图构建,要求模型在部分可观测环境中通过逐步导航从源页面抵达目标页面。这一经典场景模拟了真实世界知识图谱的语义丰富性与不确定性,迫使模型将预训练获得的世界知识转化为具体的行动决策。研究团队通过设定不同最短路径长度的任务难度等级,系统性地考察模型在长视野规划、语义推理及适应性控制等方面的综合表现,为前沿模型的性能提供了清晰的横向对比框架。
衍生相关工作
LLM-WikiRace的提出激发了围绕开放领域规划评估的一系列相关研究。其工作与BALROG等多游戏环境规划基准形成互补,强调了真实世界知识在规划中的核心作用。同时,该数据集推动了针对维基百科图谱导航的算法对比研究,例如探讨检索增强生成与强化学习框架如何提升长视野推理性能。在方法论层面,其揭示的“规划鸿沟”现象促使学界更精细地设计实验,以分离知识编码与规划执行对模型表现的影响。这些衍生工作共同深化了对语言模型作为知识空间导航智能体的能力边界与改进方向的认识。
数据集最近研究
最新研究方向
在知识图谱与语言模型交叉领域,LLM-WikiRace数据集作为评估大语言模型在真实世界知识图谱上进行规划与推理能力的关键基准,近期研究聚焦于揭示模型在长视野规划与动态重规划方面的核心瓶颈。前沿探索表明,尽管顶尖模型在简单任务中展现出超人表现,但在复杂路径导航中,其成功率骤降至25%以下,凸显出从知识依赖向规划能力主导的范式转变。研究热点围绕“规划鸿沟”现象展开,即模型在具备相近世界知识的情况下,因重规划与适应性控制能力的不足而产生性能分化。轨迹分析进一步指出,模型常陷入循环而难以在失败后调整策略,这推动了针对增强模型在部分可观测环境中的语义推理与序列决策能力的新方法探索。该数据集的建立不仅为评估语言模型的开放式知识应用提供了真实场景,也为智能体在信息空间中的长期规划与自适应学习设立了明确的研究议程。
相关研究论文
- 1LLM-WikiRace Benchmark: How Far Can LLMs Plan over Real-World Knowledge Graphs?牛津大学; 伦敦大学学院·人工智能中心; 巴塞尔大学 · 2026年
以上内容由遇见数据集搜集并总结生成



