PhantomWiki
收藏arXiv2025-02-28 更新2025-03-04 收录
下载链接:
https://github.com/kilian-group/phantom-wiki
下载链接
链接失效反馈官方服务:
资源简介:
PhantomWiki是一个生成虚构世界的随机生成器,通过类似于维基百科的生物ographical条目来表示这些虚构世界中的角色。它生成的问题和答案对是为了测试模型在检索和推理方面的技能。数据集包含了100万个虚构角色的传记条目,这些条目通过预定义的模板生成,以保持事实的准确性。PhantomWiki的设计目标是创建一个记忆抵抗和泄露抵抗的评估数据集,这些数据集在推理和检索方面都具有一定的挑战性。
PhantomWiki is a random generator for constructing fictional worlds, which represents the characters in these worlds through Wikipedia-style biographical entries. The question-answer pairs generated by PhantomWiki are intended to test models' skills in retrieval and reasoning. The dataset includes biographical entries for one million fictional characters, which are produced using predefined templates to maintain factual accuracy. The core design objective of PhantomWiki is to develop an evaluation dataset that is both memory-resistant and data leakage-resistant, and this dataset poses certain challenges for models in both reasoning and retrieval tasks.
提供机构:
康奈尔大学计算机科学系
创建时间:
2025-02-28
搜集汇总
数据集介绍

构建方式
PhantomWiki数据集通过一个生成流程来构建,该流程首先生成一个虚构宇宙的n个角色以及描述它们的文档语料库。角色通过社会关系和个人事实来描述,其中社会关系包括家庭树和友谊图,个人事实包括姓名、出生日期、职业和爱好等。然后,这些事实被转换成类似于粉丝维基网站的风格的条目。接下来,生成关于这个宇宙的问题和答案对,包含多跳推理问题。PhantomWiki旨在分离测试LLM推理和检索能力,通过调整宇宙大小和问题难度来解耦推理和检索能力。
使用方法
PhantomWiki数据集的使用方法如下:1. 生成PhantomWiki实例:根据需要生成一个虚构宇宙的n个角色以及描述它们的文档语料库。2. 生成问题和答案对:根据生成的宇宙,生成关于这个宇宙的问题和答案对,包括多跳推理问题。3. 评估模型:使用生成的数据和问题对,评估LLM的推理和检索能力。4. 分析结果:根据模型的F1分数,分析模型的推理和检索能力,以及在不同难度和宇宙大小下的表现。
背景与挑战
背景概述
PhantomWiki数据集是由康奈尔大学计算机科学系和剑桥大学计算机科学与技术系的研究人员共同创建的。该数据集的提出旨在解决当前大型语言模型(LLM)评估中存在的一些问题,如数据泄露和性能结果膨胀。PhantomWiki是一个按需生成的数据集,它能够生成独特且事实一致的文档语料库,并包含多样化的问答对。与之前的工作不同,PhantomWiki不是一个固定的数据集,也不是基于任何现有数据生成的。相反,每个评估都会生成一个新的PhantomWiki实例。该数据集的核心研究问题是如何有效地评估LLM的推理和检索能力,而不会受到数据泄露和模型过拟合的影响。PhantomWiki数据集的创建为相关领域的研究提供了重要的工具,有助于推动LLM评估方法的改进。
当前挑战
PhantomWiki数据集面临的挑战主要表现在两个方面。首先,该数据集旨在解决LLM评估中的数据泄露和性能结果膨胀问题。传统的数据集容易受到数据泄露的影响,而PhantomWiki通过生成唯一的事实一致文档语料库来解决这个问题。其次,PhantomWiki需要能够有效地评估LLM的推理和检索能力。这需要生成多样化的问答对,并确保问题难度和语料库大小能够与LLM的推理和检索能力相匹配。为了解决这些挑战,PhantomWiki采用了按需生成的策略,并根据需要调整问题难度和语料库大小。此外,PhantomWiki还使用了上下文无关语法(CFG)和逻辑编程语言Prolog来生成问题和答案,确保了问题和答案的准确性。
常用场景
经典使用场景
PhantomWiki数据集被广泛应用于评估大型语言模型(LLMs)的推理和检索能力。该数据集的独特之处在于,它可以根据需求生成独特的、事实一致的文档语料库,并包含多样化的问答对。这使得PhantomWiki成为评估LLMs在处理复杂推理和检索任务时的性能的理想工具。通过调整问题的难度和语料库的大小,PhantomWiki能够有效地将推理和检索能力分开评估,从而提供了对LLMs性能的深入理解。
解决学术问题
PhantomWiki数据集解决了评估LLMs推理和检索能力时存在的两个主要问题:数据泄露和性能夸大。传统的数据集由于数据泄露和过时的问题,无法提供一个永久性的解决方案。PhantomWiki通过生成独特的、事实一致的文档语料库,有效地避免了这些问题。此外,PhantomWiki还通过调整问题的难度和语料库的大小,将推理和检索能力分开评估,从而提供了一个更加公平和可靠的评估框架。
实际应用
PhantomWiki数据集在实际应用中具有广泛的应用前景。它可以用于评估LLMs在处理复杂推理和检索任务时的性能,从而帮助研究人员改进LLMs的性能。此外,PhantomWiki还可以用于开发新的LLMs,以提高它们在处理复杂推理和检索任务时的能力。因此,PhantomWiki在自然语言处理领域具有广泛的应用前景。
数据集最近研究
最新研究方向
PhantomWiki数据集的最新研究方向集中于为推理和检索能力评估提供高质量的数据集。该数据集的独特之处在于,它能够在每次评估时生成独特的、事实上一致的文档语料库,并具有多样化的问答对。PhantomWiki不仅不是固定数据集,也不基于任何现有数据,而是按需生成新的PhantomWiki实例。通过改变问题的难度和语料库的大小,PhantomWiki能够区分推理和检索能力。研究表明,PhantomWiki数据集对于前沿LLMs来说极具挑战性,为推理、检索和工具使用能力的评估提供了可扩展且防数据泄露的框架。
相关研究论文
- 1PhantomWiki: On-Demand Datasets for Reasoning and Retrieval Evaluation康奈尔大学计算机科学系 · 2025年
以上内容由遇见数据集搜集并总结生成



