KnowRL-Knowledge-Base
收藏Hugging Face2025-07-17 更新2025-07-18 收录
下载链接:
https://huggingface.co/datasets/zjunlp/KnowRL-Knowledge-Base
下载链接
链接失效反馈官方服务:
资源简介:
这是一个由2023年11月1日英语维基百科快照构建的知识库,包含6.4百万条条目,用于KnowRL框架的强化学习训练阶段,为模型的事实性验证提供外部知识源。
提供机构:
ZJUNLP
创建时间:
2025-07-16
原始信息汇总
KnowRL-Knowledge-Base 数据集概述
数据集简介
- 名称: KnowRL-Knowledge-Base
- 用途: 为研究论文《KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality》提供外部知识库
- 核心功能: 作为知识源用于计算
Fact Reward,评估模型推理过程的真实性
数据集详情
-
数据来源: 2023年11月1日的英文维基百科快照,包含640万条目
-
数据格式: JSON格式,每个条目包含: json { "title": "特定实体名称", "text": "对应维基百科页面的完整文本内容..." }
-
实体链接规则:
- 每个问题提取关键实体
- 实体需与维基百科条目标题完全匹配或完全包含
- 每个实体关键词最多链接三个维基百科条目
使用方法
通过datasets库加载
python from datasets import load_dataset knowledge_base = load_dataset("zjunlp/KnowRL-Knowledge-Base")
通过命令行下载
bash huggingface-cli download zjunlp/KnowRL-Knowledge-Base --repo-type dataset --local-dir KnowRL-Knowledge-Base
引用信息
bibtex @article{ren2025knowrl, title={{KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality}}, author={Ren, Baochang and Qiao, Shuofei and Yu, Wenhao and Chen, Huajun and Zhang, Ningyu}, journal={arXiv preprint arXiv:2506.19807}, year={2025} }
相关资源
- 论文地址: https://arxiv.org/abs/2506.19807
- GitHub仓库: https://github.com/zjunlp/KnowRL
- 训练数据集: https://huggingface.co/datasets/zjunlp/KnowRL-Train-Data
搜集汇总
数据集介绍

构建方式
在知识图谱与自然语言处理交叉领域,KnowRL-Knowledge-Base的构建体现了对大规模知识源的系统化整合。该数据集以2023年11月1日的英文维基百科快照为基础,包含640万个条目,每个条目通过实体链接技术将问题中的关键实体与维基百科标题进行精确匹配或完全包含关系验证。为确保知识覆盖的广度与精度,每个实体关键词最多关联三条维基百科条目,有效避免了数据冗余,形成了结构严谨、内容可靠的知识验证基础。
特点
作为KnowRL框架的核心知识源,该数据集具备高权威性与时效性特征。其条目采用标准化JSON格式存储,包含实体标题和对应维基百科全文内容,为语言模型的事实性奖励计算提供可验证的基准。数据集涵盖多领域实体知识,支持复杂推理任务中的事实锚定,其规模与质量显著提升了强化学习过程中事实核查的准确度与效率。
使用方法
研究者可通过HuggingFace生态系统快速调用该数据集,使用datasets库的load_dataset函数直接加载知识库,或通过huggingface-cli命令行工具本地下载。该知识库专用于KnowRL框架的强化学习阶段,为模型生成内容提供实时事实比对,用户可依据实体标题检索相关文本内容,集成到事实性奖励计算模块中,从而指导语言模型生成更符合事实的推理结果。
背景与挑战
背景概述
知识图谱与大型语言模型融合领域近年来备受关注,KnowRL-Knowledge-Base作为浙江大学团队于2025年推出的知识库数据集,专门服务于《KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality》研究项目。该数据集基于2023年11月英文维基百科快照构建,包含640万条实体条目,旨在通过强化学习框架解决大语言模型在复杂推理过程中产生的幻觉问题,为模型输出提供可验证的事实依据,推动可信人工智能系统的发展。
当前挑战
该数据集核心挑战在于如何确保知识检索的精确性与时效性。在解决领域问题时,需要克服大语言模型生成内容与真实知识对齐的困难,特别是在多步推理中维持事实一致性。构建过程中面临维基百科数据规模庞大带来的存储与处理压力,以及实体链接时需处理别名消歧和跨语言映射问题,同时要平衡知识覆盖广度与检索效率之间的张力。
常用场景
经典使用场景
在大型语言模型的可信度增强研究中,KnowRL-Knowledge-Base作为关键的外部知识源,为强化学习训练阶段提供事实性验证基础。该数据集通过整合维基百科的权威知识条目,构建起包含640万条实体文本的知识图谱,专门用于评估模型推理过程中的事实准确性。研究者利用其结构化知识内容,能够有效检测并纠正模型生成文本中的幻觉现象,提升复杂推理任务的可信度。
衍生相关工作
基于该数据集衍生的经典工作包括KnowRL强化学习框架的系列研究,这些研究开创了将外部知识验证融入语言模型训练的新范式。后续研究进一步扩展了知识检索与融合技术,发展了多模态知识增强方法,并催生了面向特定领域的专业化知识库构建。这些工作共同推动了知识感知人工智能系统的发展,为后续研究提供了重要的技术路线和评估基准。
数据集最近研究
最新研究方向
在大型语言模型可信性研究领域,KnowRL知识库作为事实核查的核心基础设施,正推动基于知识增强的强化学习范式革新。该数据集源自2023年英文维基百科快照,包含640万条实体化知识条目,为语言模型提供可验证的事实锚点。当前研究聚焦于构建动态知识检索机制,通过实体链接与语义匹配技术,有效解决模型幻觉问题。相关成果已应用于慢思考模型的推理对齐任务,显著提升复杂推理场景下的事实一致性,为可信人工智能系统的发展提供重要支撑。
以上内容由遇见数据集搜集并总结生成



