TEXT2WORLD

Name: TEXT2WORLD
Creator: 香港大学, 深圳大学, 哈尔滨工业大学, 上海人工智能实验室
Published: 2025-02-19 01:59:48
License: 暂无描述

arXiv2025-02-19 更新2025-02-27 收录

下载链接：

https://text-to-world.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

TEXT2WORLD是一个基于规划领域定义语言（PDDL）的新型基准数据集，由香港大学等机构创建。该数据集包含数百个不同的领域，旨在评估大型语言模型生成符号世界模型的能力。数据集通过自动管道和人工筛选确保质量，支持多标准、基于执行的评估方式。

TEXT2WORLD is a novel benchmark dataset based on the Planning Domain Definition Language (PDDL), created by institutions including the University of Hong Kong. This dataset encompasses hundreds of distinct domains, with the purpose of evaluating the ability of Large Language Models (LLMs) to generate symbolic world models. The dataset ensures quality via automated pipelines and manual screening, and supports multi-criteria, execution-based evaluation methods.

提供机构：

香港大学, 深圳大学, 哈尔滨工业大学, 上海人工智能实验室

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

TEXT2WORLD数据集的构建基于规划领域定义语言（PDDL），旨在评估大型语言模型（LLMs）生成符号世界模型的能力。为了确保数据集的质量和多样性，研究团队首先从公共存储库和规划竞赛中收集了大量PDDL文件，然后通过自动化流程和人工筛选，最终得到了包含数百个不同领域的集合。为了提高评估的可靠性，研究人员设计了多标准、基于执行的评估指标，包括可执行性、结构相似性和组件级F1分数等，以直接评估生成的世界模型。

特点

TEXT2WORLD数据集的特点在于其多样性和评估的全面性。数据集涵盖了广泛的领域，有助于测试LLMs在不同场景下的泛化能力。评估指标的多样性确保了模型能力的多方面考量，而基于执行的评估方法则避免了间接评估的随机性和不明确性。此外，TEXT2WORLD的数据污染率较低，表明其能够有效评估LLMs的世界建模能力，而非简单地记忆模式。

使用方法

使用TEXT2WORLD数据集时，首先需要获取数据集，该数据集可在指定URL下载。接下来，选择合适的大型语言模型进行评估。评估过程包括使用LLMs生成世界模型，并使用TEXT2WORLD提供的评估指标对其进行评估。评估指标包括可执行性、结构相似性和组件级F1分数等。为了提高模型的性能，还可以尝试不同的策略，如测试时扩展、上下文学习、微调和代理训练等。最后，根据评估结果，可以对LLMs的世界建模能力进行分析和改进。

背景与挑战

背景概述

近年来，随着大型语言模型（LLMs）在理解通用世界知识方面的能力日益凸显，研究人员开始探索将这些模型应用于生成符号世界模型的可能性。符号世界模型是对环境动态和约束的正式表示，这对于预测和规划智能行为具有重要意义。然而，现有的世界模型生成研究存在一些局限性，包括领域范围的局限性、评估随机性和依赖间接指标等问题。为了克服这些局限性，Hu等人提出了TEXT2WORLD基准，该基准基于规划领域定义语言（PDDL），包含数百个多样化的领域，并采用多标准、基于执行的指标进行更稳健的评估。TEXT2WORLD的引入为评估LLMs的世界建模能力提供了一个重要的资源，并为未来利用LLMs作为世界模型的研究奠定了基础。

当前挑战

TEXT2WORLD基准面临的挑战包括：1) 有限的领域范围：现有的世界模型生成研究通常局限于少数几个领域，限制了其研究结果的普遍性和适用性。2) 评估随机性：一些研究依赖于基于LLMs的评估方法，这可能会引入额外的误差。3) 间接评估：一些研究基于模型在基于模型的规划中的端到端成功率来评估世界模型，这使得难以识别具体的失败模式。为了解决这些问题，TEXT2WORLD基准采用了多标准、基于执行的指标进行直接评估，消除了对间接反馈机制的依赖。

常用场景

经典使用场景

TEXT2WORLD数据集旨在通过规划领域定义语言(PDDL)评估大型语言模型(LLM)生成符号世界模型的能力。该数据集包含了数百个多样化的领域，并采用多标准、执行基础的指标进行更稳健的评估。其经典使用场景包括评估LLM在生成符号世界模型方面的能力，比较不同LLM在执行世界模型任务上的表现，以及探索增强LLM世界建模能力的策略。

衍生相关工作

TEXT2WORLD数据集衍生了一系列相关工作，包括探索LLM在生成符号世界模型方面的能力，以及如何利用LLM进行规划和游戏设计等领域的研究。此外，TEXT2WORLD还推动了LLM在强化学习和机器人技术等领域的应用研究。

数据集最近研究