PLUGH
收藏arXiv2024-08-03 更新2024-08-13 收录
下载链接:
https://github.com/altsoph/PLUGH
下载链接
链接失效反馈官方服务:
资源简介:
PLUGH数据集由Inworld.AI创建,旨在评估大型语言模型在空间理解和推理方面的能力。该数据集包含从48个不同游戏中提取的125个文本片段,代表了61个不同的空间图。数据集的创建过程涉及使用Jericho引擎重放游戏攻略,以获取游戏文本和空间图。PLUGH数据集主要应用于人工智能领域,特别是用于测试和改进模型在处理空间结构描述文本时的表现。
The PLUGH Dataset, developed by Inworld.AI, is designed to assess the spatial comprehension and reasoning abilities of large language models (LLMs). It comprises 125 text segments extracted from 48 distinct games, which collectively represent 61 unique spatial graphs. The dataset was constructed by replaying game walkthroughs via the Jericho engine to acquire game text and spatial graph data. This dataset is primarily utilized in the field of artificial intelligence, particularly for testing and improving the performance of models when processing text describing spatial structures.
提供机构:
Inworld.AI, 德国
创建时间:
2024-08-03
原始信息汇总
PLUGH 数据集概述
摘要
PLUGH 是一个现代基准测试,包含 5 个任务,每个任务有 125 个输入文本,这些文本从 48 个不同的游戏中提取,代表了 61 个不同的(非同构)空间图,用于评估大型语言模型(LLMs)的空间理解和推理能力。评估显示,尽管某些商业 LLMs 表现出强大的推理能力,但开源竞争对手也能展示出几乎相同的质量水平;然而,所有模型仍有显著的改进空间。
内容
plugh.json:基准数据。sample_responses.py:用于通过 OpenAI API 查询模型或生成提示,以便用于查询任何自定义模型。plugh.responses.json:已采样的多个模型的响应。calc_metrics.py:用于处理响应、解析它们并计算基准指标的脚本。
结果
运行 python calc_metrics.py -i plugh.json -r plugh.responses.json 应生成以下报告:
task1
task1_strict_nodes_f1
| 模型 | 项目数 | 0-shot | 1-shot | 2-shot | 3-shot |
|---|---|---|---|---|---|
| openai:gpt-3-5-turbo | 113 | 55.2% | 66.6% | 70.7% | 73.5% |
| openai:gpt-4-turbo-2024-04-09 | 113 | 73.2% | 76.5% | 76.4% | 77.1% |
| anthropic:claude-3-opus-20240229 | 113 | 70.0% | 77.5% | 78.9% | 81.4% |
| local:llama3_8b | 113 | 64.8% | 60.1% | 65.4% | 67.1% |
| local:mixtral_8x7b | 113 | 25.2% | 67.2% | 69.0% | 69.0% |
| local:llama3_70b | 113 | 68.0% | 73.7% | 74.0% | 74.2% |
| local:mixtral_8x22b | 113 | 67.7% | 75.3% | 76.6% | 75.4% |
| openai:gpt-4o-2024-05-13 | 113 | 71.7% | 73.4% | 74.7% | 75.8% |
task1_strict_edges_f1
| 模型 | 项目数 | 0-shot | 1-shot | 2-shot | 3-shot |
|---|---|---|---|---|---|
| openai:gpt-3-5-turbo | 113 | 30.6% | 42.0% | 46.0% | 49.5% |
| openai:gpt-4-turbo-2024-04-09 | 113 | 53.1% | 56.4% | 56.4% | 57.4% |
| anthropic:claude-3-opus-20240229 | 113 | 50.7% | 59.0% | 60.4% | 62.9% |
| local:llama3_8b | 113 | 41.1% | 36.8% | 40.3% | 40.9% |
| local:mixtral_8x7b | 113 | 12.6% | 41.4% | 42.4% | 44.6% |
| local:llama3_70b | 113 | 46.5% | 53.1% | 53.6% | 54.2% |
| local:mixtral_8x22b | 113 | 45.8% | 54.1% | 56.2% | 55.4% |
| openai:gpt-4o-2024-05-13 | 113 | 52.2% | 53.7% | 56.1% | 57.4% |
task1_fuzzy_nodes_f1
| 模型 | 项目数 | 0-shot | 1-shot | 2-shot | 3-shot |
|---|---|---|---|---|---|
| openai:gpt-3-5-turbo | 113 | 64.6% | 75.8% | 81.3% | 82.8% |
| openai:gpt-4-turbo-2024-04-09 | 113 | 82.9% | 86.4% | 86.3% | 86.8% |
| anthropic:claude-3-opus-20240229 | 113 | 80.3% | 87.1% | 88.3% | 90.7% |
| local:llama3_8b | 113 | 77.5% | 70.3% | 76.2% | 78.6% |
| local:mixtral_8x7b | 113 | 29.2% | 76.7% | 79.1% | 79.3% |
| local:llama3_70b | 113 | 78.9% | 84.0% | 85.4% | 84.9% |
| local:mixtral_8x22b | 113 | 78.9% | 85.2% | 86.5% | 84.7% |
| openai:gpt-4o-2024-05-13 | 113 | 82.0% | 83.3% | 84.3% | 85.5% |
task1_fuzzy_edges_f1
| 模型 | 项目数 | 0-shot | 1-shot | 2-shot | 3-shot |
|---|---|---|---|---|---|
| openai:gpt-3-5-turbo | 113 | 41.4% | 54.3% | 60.4% | 62.3% |
| openai:gpt-4-turbo-2024-04-09 | 113 | 67.1% | 71.1% | 71.3% | 71.8% |
| anthropic:claude-3-opus-20240229 | 113 | 64.4% | 74.3% | 76.2% | 79.0% |
| local:llama3_8b | 113 | 55.7% | 50.9% | 53.9% | 57.2% |
| local:mixtral_8x7b | 113 | 17.0% | 53.0% | 55.6% | 58.4% |
| local:llama3_70b | 113 | 61.6% | 68.0% | 70.1% | 70.5% |
| local:mixtral_8x22b | 113 | 60.1% | 68.5% | 70.6% | 68.8% |
| openai:gpt-4o-2024-05-13 | 113 | 66.8% | 67.8% | 70.8% | 72.3% |
task2a
task2a_strict_distance
| 模型 | 项目数 | 0-shot | 1-shot | 2-shot | 3-shot |
|---|---|---|---|---|---|
| openai:gpt-3-5-turbo | 113 | 38.0% | 31.6% | 29.7% | 28.3% |
| openai:gpt-4-turbo-2024-04-09 | 113 | 26.1% | 12.8% | 12.2% | 11.7% |
| anthropic:claude-3-opus-20240229 | 113 | 34.6% | 11.2% | 10.5% | 10.0% |
| local:llama3_8b | 113 | 80.6% | 65.8% | 53.7% | 54.0% |
| local:mixtral_8x7b | 113 | 61.4% | 46.6% | 47.7% | 46.3% |
| local:llama3_70b | 113 | 58.7% | 15.1% | 14.5% | 15.9% |
| local:mixtral_8x22b | 113 | 34.7% | 19.7% | 16.9% | 18.1% |
| openai:gpt-4o-2024-05-13 | 113 | 21.5% | 10.5% | 10.0% | 9.5% |
task2a_fuzzy_distance
| 模型 | 项目数 | 0-shot | 1-shot | 2-shot | 3-shot |
|---|---|---|---|---|---|
| openai:gpt-3-5-turbo | 113 | 33.6% | 30.5% | 28.5% | 28.2% |
| openai:gpt-4-turbo-2024-04-09 | 113 | 16.2% | 12.8% | 11.9% | 11.7% |
| anthropic:claude-3-opus-20240229 | 113 | 19.2% | 11.1% | 10.5% | 10.0% |
| local:llama3_8b | 113 | 38.7% | 51.3% | 44.1% | 46.4% |
| local:mixtral_8x7b | 113 | 35.9% | 36.6% | 38.2% | 37.6% |
| local:llama3_70b | 113 | 23.4% | 14.9% | 14.4% | 15.8% |
| local:mixtral_8x22b | 113 | 18.7% | 17.7% | 16.4% | 17.6% |
| openai:gpt-4o-2024-05-13 | 113 | 12.7% | 9.5% | 9.3% | 9.3% |
task2b
task2b_strict_distance
| 模型 | 项目数 | 0-shot | 1-shot | 2-shot | 3-shot |
|---|---|---|---|---|---|
| openai:gpt-3-5-turbo | 113 | 64.5% | 61.0% | 58.8% | 59.6% |
| openai:gpt-4-turbo-2024-04-09 | 113 | 22.8% | 18.2% | 15.2% | 15.5% |
| anthropic:claude-3-opus-20240229 | 113 | 31.1% | 23.6% | 21.1% | 21.0% |
| local:llama3_8b | 113 | 90.7% | 69.6% | 67.1% | 66.1% |
| local:mixtral_8x7b | 113 | 83.7% | 60.7% | 63.2% | 60.6% |
| local:llama3_70b | 113 | 59.9% | 32.2% | 30.3% | 32.9% |
| local:mixtral_8x22b | 113 | 63.0% | 40.9% | 39.8% | 39.0% |
| openai:gpt-4o-2024-05-13 | 113 | 21.8% | 13.0% | 11.7% | 12.4% |
task2b_fuzzy_distance
| 模型 | 项目数 | 0-shot | 1-shot | 2-shot | 3-shot |
|---|---|---|---|---|---|
| openai:gpt-3-5-turbo | 113 | 64.5% | 60.2% | 58.4% | 59.5% |
| openai:gpt-4-turbo-2024-04-09 | 113 | 21.7% | 18.2% | 15.2% | 15.5% |
| anthropic:claude-3-opus-20240229 | 113 | 25.7% | 23.6% | 21.1% | 21.0% |
| local:llama3_8b | 113 | 65.0% | 63.6% | 62.2% | 61.7% |
| local:mixtral_8x7b | 113 | 60.8% | 54.4% |
搜集汇总
数据集介绍

构建方式
PLUGH数据集通过从48个不同游戏中提取的125个输入文本构建,这些文本代表了61个不同的非同构空间图。利用Jericho引擎和已知的游戏攻略,通过重放攻略同时获取游戏文本和空间图,确保了数据的多样性和复杂性。通过滑动窗口逻辑筛选出包含6到20个节点、连接且非退化的图段,并使用GPT-4模型将这些图段的文本重写为虚构文本,最终形成了包含125个图段的数据集。
特点
PLUGH数据集的显著特点在于其多样性和复杂性,涵盖了从3到数百个节点的空间图,确保了数据集在空间理解和推理任务中的广泛适用性。此外,数据集通过严格的验证步骤,确保了文本和图之间的对应关系,减少了命名歧义和图的重复性,从而提高了数据集的可靠性和实用性。
使用方法
PLUGH数据集主要用于评估大型语言模型在空间理解和推理任务中的表现。通过提供包含空间结构描述的虚构文本和相应的空间图,研究人员可以设计多种任务来测试模型的空间推理能力,如图形重建、角色路径重建、最短路径提取等。数据集的模块化设计允许用户根据需要添加自定义的评估指标,从而进行更全面和深入的模型评估。
背景与挑战
背景概述
在大型语言模型(LLMs)的快速发展背景下,空间理解和推理能力成为评估其性能的重要指标。PLUGH数据集由Inworld.AI的Alexey Tikhonov创建,旨在通过5个任务评估LLMs在空间理解和推理方面的能力。该数据集包含从48个不同游戏中提取的125个文本片段,代表了61个不同的空间图结构。PLUGH的提出填补了现有评估方法的空白,为研究者提供了一个系统化的工具来评估和改进LLMs在复杂空间任务中的表现。
当前挑战
PLUGH数据集在构建过程中面临多重挑战。首先,空间语言理解的复杂性要求模型能够识别和推理自然语言描述中的空间语义,如空间对象、关系和变换。其次,从虚构文本中提取形式化知识需要对叙事有深入理解,而如何客观地创建真实标注成为一个难题。此外,现有方法生成的形式化描述往往单调且缺乏多样性,限制了评估的全面性。最后,数据集的多样性和复杂性要求模型在处理不同规模和结构的空间图时保持高效和准确,这对模型的鲁棒性和泛化能力提出了高要求。
常用场景
经典使用场景
PLUGH数据集主要用于评估大型语言模型(LLMs)在空间理解和推理方面的能力。通过提供从48个不同游戏中提取的125个输入文本,该数据集涵盖了61个不同的非同构空间图,旨在测试模型在重建空间结构、路径推理和最短路径提取等任务中的表现。
解决学术问题
PLUGH数据集解决了大型语言模型在空间推理任务中的常见问题,如空间结构的准确重建、路径的正确识别和最短路径的提取。通过提供多样化的空间图和文本描述,该数据集有助于研究人员评估和改进模型在复杂空间环境中的推理能力,推动了自然语言处理领域在空间理解和推理方面的研究进展。
衍生相关工作
PLUGH数据集的发布催生了一系列相关研究工作,包括改进空间推理算法、开发新的评估指标以及探索不同类型文本数据对模型性能的影响。此外,该数据集还激发了对大型语言模型在多模态数据处理和复杂任务解决能力方面的深入研究,推动了自然语言处理和人工智能领域的交叉发展。
以上内容由遇见数据集搜集并总结生成



