WIKIDYK

Name: WIKIDYK
Creator: 加州大学圣地亚哥分校,腾讯AI实验室西雅图分部,华盛顿大学,思科
Published: 2025-05-18 16:39:05
License: 暂无描述

arXiv2025-05-18 更新2025-05-21 收录

下载链接：

https://github.com/zhang-yu-wei/WikiDYK; https://huggingface.co/datasets/YWZBrandon/wikidyk

下载链接

链接失效反馈

官方服务：

资源简介：

WIKIDYK是一个从维基百科“你知道吗...”条目中收集的人类编写的最新事实的大型数据集。这个数据集包含12290个事实和77180个问题，并且可以无缝地扩展以包括未来维基百科编辑的更新。WIKIDYK通过持续预训练进行了广泛的实验，结果表明，尽管在现代大型语言模型中普遍存在，但因果语言模型（CLM）的知识记忆能力比双向语言模型（BiLM）弱得多，可靠性方面准确率低了23%。为了弥补当前BiLM规模的不足，我们引入了一个模块化协作框架，利用BiLM的集合作为外部知识库与LLM集成。实验表明，我们的框架将可靠性准确率提高了29.1%。

WIKIDYK is a large-scale dataset of human-written up-to-date facts collected from Wikipedia's "Did You Know..." articles. This dataset contains 12,290 facts and 77,180 questions, and can be seamlessly scaled to include updates from future Wikipedia edits. Extensive experiments conducted on WIKIDYK via continual pre-training have shown that, despite their widespread use in modern large language models, causal language models (CLMs) have significantly weaker knowledge memorization capabilities than bidirectional language models (BiLMs), with a 23% lower accuracy in terms of reliability. To address the current limitation of BiLM scale, we introduce a modular collaborative framework that leverages ensembles of BiLMs as external knowledge bases for integration with LLMs. Experiments demonstrate that our framework improves reliability accuracy by 29.1%.

提供机构：

加州大学圣地亚哥分校,腾讯AI实验室西雅图分部,华盛顿大学,思科

创建时间：

2025-05-18

搜集汇总

数据集介绍

构建方式

WIKIDYK数据集通过系统化地采集维基百科每日更新的‘Did You Know...’条目构建而成，这些条目由专业编辑团队基于可验证性和清晰度标准严格筛选。每个事实条目被转化为多样化的问答对，涵盖从简单的填空提示到复杂的多跳问题等多种任务形式。数据采集过程自动化程度高，确保了数据集能够持续扩展，目前已包含12,290条事实和77,180个问题。

特点

WIKIDYK数据集以其高质量、实时性和多样性著称。其核心特点包括：1) 知识来源权威，所有条目均来自维基百科专家审核的最新事实；2) 任务设计全面，通过五种问题类型（可靠性、通用性、转述性、可移植性和局部性）系统评估语言模型的知识记忆与关联能力；3) 动态更新机制，数据集可随维基百科的日常更新自动扩展，保持知识的新颖性。

使用方法

该数据集主要用于评估语言模型的知识注入能力。研究者可通过持续预训练将新知识注入模型，随后使用数据集中的多维度问题评估模型表现。典型流程包括：1) 选择知识注入方法（如继续预训练或微调）；2) 使用WIKIDYK中的事实进行模型训练；3) 通过五种类型的问题全面评估模型的知识记忆准确率、泛化能力和抗遗忘性能。数据集还支持与检索增强生成（RAG）等方法的对比研究。

背景与挑战

背景概述

WIKIDYK数据集由加州大学圣地亚哥分校、腾讯AI Lab西雅图、华盛顿大学和思科的研究团队于2025年提出，旨在解决大语言模型（LLMs）知识记忆能力评估的标准化问题。该数据集基于维基百科每日更新的“你知道吗”（Did You Know, DYK）条目，这些条目由维基百科专家编辑根据可验证性和清晰度等标准精心筛选。WIKIDYK包含12,290条事实和77,180个问题，涵盖从简单的填空提示到复杂的多跳问题等多种任务形式，为评估语言模型的知识注入能力提供了高质量、动态更新的基准。该数据集的推出填补了真实世界知识注入评估的空白，并对语言模型的知识更新和记忆机制研究产生了重要影响。

当前挑战

WIKIDYK面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，该数据集旨在解决语言模型知识记忆能力的评估问题，但现有因果语言模型（CLMs）在知识记忆方面表现显著弱于双向语言模型（BiLMs），可靠性准确率低23%。此外，知识关联任务（如多跳推理）的性能提升有限，表明模型在知识泛化方面存在困难。在构建过程方面，挑战包括确保数据的新颖性和质量，以及设计多样化的评估任务（如可靠性、通用性、转述、可移植性和局部性）。数据集的动态更新特性也带来了持续的维护和扩展挑战，需要自动化流程来整合维基百科的每日更新，同时保持数据的一致性和评估的有效性。

常用场景

经典使用场景

WIKIDYK数据集作为知识注入评估的基准，广泛应用于大型语言模型（LLMs）的知识记忆能力研究。其经典使用场景包括通过持续预训练评估模型对新知识的记忆和关联能力，特别是在多跳问答和复杂推理任务中。该数据集通过多样化的任务格式（如填空提示和多跳问题）全面测试模型的知识掌握程度。

实际应用

WIKIDYK的实际应用场景包括动态知识更新系统、智能问答系统和教育技术领域。通过持续注入新知识，该数据集支持构建能够实时更新知识的语言模型，适用于需要频繁更新知识的应用，如新闻摘要生成、实时问答和教育内容推荐。其模块化协作框架进一步提升了知识注入的效率和可靠性，适用于多领域知识集成。

衍生相关工作

WIKIDYK衍生了多项经典研究工作，包括基于双向语言模型的模块化知识注入框架、知识关联任务的多维评估方法，以及针对知识记忆能力的模型架构比较研究。这些工作不仅推动了知识注入技术的发展，还为语言模型的动态知识更新提供了新的研究方向。此外，该数据集启发了后续研究探索混合架构（如结合BiLMs和CLMs）以优化知识记忆和生成能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集