LEXICON
收藏arXiv2025-10-07 更新2025-11-20 收录
下载链接:
https://www.kaggle.com/datasets/periklismant/lexicon-benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
LEXICON是一个基于自然语言的受约束规划基准,用于评估大型语言模型(LLMs)在规划任务中的能力。它包含一系列环境,这些环境可以用来评估LLMs在受约束的规划任务中的规划能力。LEXICON的核心思想是在现有的规划环境中对状态施加时间约束,然后将这些受约束的问题翻译成自然语言,并交给LLMs来解决。LEXICON的一个关键特性是其可扩展性,即支持的环境集可以扩展为新的(无约束)环境生成器,为其自动构建时间约束。LEXICON旨在通过自然语言直接将约束传达给规划代理,从而解决指定复杂约束的难题。
LEXICON is a natural language-based constrained planning benchmark for evaluating the planning capabilities of large language models (LLMs) across planning tasks. It includes a series of environments developed to assess LLMs' planning performance in constrained planning scenarios. The core idea of LEXICON is to impose temporal constraints on states within existing planning environments, then translate these constrained planning problems into natural language prompts for LLMs to solve. A key feature of LEXICON is its scalability: the set of supported environments can be extended by integrating new unconstrained environment generators, which automatically construct temporal constraints for the corresponding planning tasks. LEXICON aims to address the challenge of specifying complex constraints by directly communicating these constraints to planning agents via natural language.
提供机构:
Örebro University,Sweden &KU Leuven,Belgium
创建时间:
2025-10-07
搜集汇总
数据集介绍

构建方式
在自然语言规划研究领域,LEXICON数据集通过将经典规划环境与时间约束相结合构建而成。该数据集以PDDL3.0规划语言为基础框架,首先利用符号推理引擎从无约束规划问题中生成任务感知型时间约束,确保约束既不会导致问题无解又能提升最优解长度。随后通过模块化翻译器将形式化规划问题转化为自然语言描述,其中初始状态、目标和约束均通过预定义语义模板实现结构化转换,最终形成可扩展的约束规划问题集合。
使用方法
该数据集的使用遵循标准化评估流程:研究者首先通过自然语言接口向大语言模型呈现约束规划问题,要求模型生成满足时序约束的最优行动序列。系统随后利用符号推理引擎对模型输出进行三重验证:将自然语言行动映射为PDDL动作,通过编译后的问题验证计划有效性,最终对比计划长度与预计算最优成本判断最优性。这种自动化验证机制支持实时生成与评估的闭环,为衡量大语言模型在约束规划中的推理能力提供可量化的评估框架。
背景与挑战
背景概述
LEXICON数据集由瑞典厄勒布鲁大学与比利时鲁汶大学联合团队于2025年创建,旨在构建自然语言约束下的时序规划基准。该数据集聚焦于评估大语言模型在复杂时序约束条件下的规划能力,通过整合BabyAI、Blocksworld等经典规划环境,并自动注入状态轨迹约束,推动智能体在安全关键场景中的可靠决策研究。其模块化架构支持环境扩展与约束组合生成,为自然语言推理与形式化规划方法的交叉研究提供了标准化评估框架。
当前挑战
LEXICON需解决自然语言规划中时序约束满足的核心难题,包括多约束组合下的语义一致性维护、长序列规划中的状态跟踪偏差,以及约束与目标间的隐含冲突消解。构建过程面临自动化约束生成的挑战,需确保注入的约束既增加问题复杂度又保持可解性,同时避免约束冗余或逻辑矛盾。此外,自然语言到形式化语言的精准转译要求克服语义歧义,而规划验证模块需处理LLM输出与PDDL动作的映射偏差问题。
常用场景
经典使用场景
在自然语言处理与自动规划交叉领域,LEXICON数据集为评估大型语言模型在时序约束下的规划能力提供了标准化测试平台。该数据集通过将经典规划环境转化为自然语言描述,并注入复杂的时序约束条件,构建了具有挑战性的评估场景。研究人员利用LEXICON生成的多样化规划问题,系统性地测试语言模型在满足多重约束条件下的推理能力,特别是在需要同时处理空间导航、物体操作和时序逻辑的复杂任务中。
解决学术问题
LEXICON数据集有效解决了当前自然语言规划研究中缺乏系统性约束评估的学术难题。通过提供自动生成的时序约束规划问题,该数据集填补了传统规划基准在自然语言接口与约束处理能力评估方面的空白。其核心价值在于能够量化语言模型在约束满足、状态跟踪和长期推理方面的性能瓶颈,为研究社区提供了可复现的评估标准,推动了约束规划与自然语言理解的交叉研究进展。
实际应用
LEXICON数据集在现实世界的智能系统开发中具有重要应用价值。在机器人任务规划领域,该数据集可用于测试机器人系统在遵守安全约束条件下的自主决策能力;在智能助手开发中,能够评估对话系统处理复杂时序指令的可靠性;在工业自动化场景下,可为调度算法提供带有自然语言约束的测试案例。这些应用场景均要求智能体在满足特定约束条件下完成目标,与LEXICON的设计理念高度契合。
数据集最近研究
最新研究方向
随着大语言模型在自然语言规划任务中的广泛应用,LEXICON数据集的推出标志着该领域研究重点从无约束规划转向时序约束下的复杂决策评估。当前前沿研究聚焦于探索大语言模型在多重约束条件下的规划能力退化机制,通过自动生成组合式时序约束问题,系统验证模型在安全关键场景中的可靠性。这一方向与自动驾驶、医疗决策等现实应用中严格遵循约束规范的需求紧密关联,推动了可扩展评测基准的理论创新与工程实践,为构建具备可证明安全保障的智能系统奠定基础。
相关研究论文
- 1通过Örebro University,Sweden &KU Leuven,Belgium · 2025年
以上内容由遇见数据集搜集并总结生成



