five

Encyclo-K

收藏
arXiv2025-12-31 更新2026-01-05 收录
下载链接:
https://encyclo-k.github.io
下载链接
链接失效反馈
官方服务:
资源简介:
Encyclo-K是由字节跳动种子中国、中国科学院等机构联合构建的动态知识评估基准数据集,旨在解决传统基准的数据污染、单知识点评估局限性和高标注成本问题。该数据集从62本权威教科书中提取21,525条正确知识陈述,并生成21,494条错误陈述,覆盖11个学科的43个领域,最终组合成5,038道含8-10个陈述的综合性问题。通过程序化随机组合机制,每个问题平均包含3,113个token,实现了评估内容的动态更新与多知识点联合理解测试。该数据集主要应用于大语言模型的百科全书式知识理解能力评估,特别擅长检测模型对跨学科细粒度知识的综合掌握程度。

Encyclo-K is a dynamic knowledge evaluation benchmark dataset jointly constructed by institutions including ByteDance Seed China and the Chinese Academy of Sciences, aiming to address the issues of data contamination, limitations of single-knowledge-point evaluation and high annotation cost in traditional benchmarks. It extracts 21,525 correct knowledge statements and generates 21,494 incorrect knowledge statements from 62 authoritative textbooks, covering 43 subfields across 11 academic disciplines. Finally, 5,038 comprehensive questions each containing 8 to 10 statements are compiled. Through a procedural random combination mechanism, each question contains an average of 3,113 tokens, enabling dynamic updates of evaluation content and tests of joint multi-knowledge-point understanding. This dataset is primarily applied to evaluate the encyclopedic knowledge comprehension ability of large language models, and is particularly adept at detecting the comprehensive mastery of cross-disciplinary fine-grained knowledge by models.
提供机构:
中国科学院·人工智能学院; 中国科学院·自动化研究所; 字节跳动种子中国; 南京大学; M-A-P; 北京智源人工智能研究院; 曼彻斯特大学
创建时间:
2025-12-31
原始信息汇总

Encyclo-K 数据集概述

数据集简介

Encyclo-K 是一个基于知识陈述的基准测试,它从根本上重新思考了基准测试的构建方式。其核心观点是:问题本身不一定是构建的最小单元——独立的知识陈述可以成为构建单元。

该数据集从权威教科书中提取独立的知识陈述,并在测试时通过随机采样动态地将这些陈述组合成评估问题。其组合空间过于庞大而无法被记忆,从而支持可靠的数据集定期更新。

关键特性

  • 动态评估:从权威教科书中提取独立的知识陈述,并在测试时通过随机采样动态组合成评估问题。
  • 多陈述理解:每个问题聚合 8-10 个陈述,用于全面的多知识评估,超越了单陈述问题所能探究的范围。
  • 经济高效的标注:标注者仅需验证格式合规性,无需领域专业知识,大幅降低了标注成本。
  • 抗污染性:即使单个陈述出现在训练数据中,它们的组合也形成了一个过于庞大而无法记忆的组合空间。

数据集概览

  • 问题总数:5,038
  • 问题构成:每个问题包含 8–10 个陈述、4–8 个选项和 2–4 个组合。
  • 覆盖范围:涵盖 11 个学科、44 个领域和 62 个子领域。

问题学科分布

学科 问题数量 占比
科学 1,242 24.7%
工程 892 17.7%
医学 654 13%
经济学 489 9.7%
法学 387 7.7%
历史学 312 6.2%
教育学 276 5.5%
管理学 234 4.6%
社会学 198 3.9%
哲学 198 3.9%
文学 156 3.1%

关键发现

单陈述与多陈述性能对比:模型在从单陈述判断任务过渡到多陈述综合理解任务时,始终表现出显著的性能下降。这揭示了当前大语言模型在联合推理多个知识点(而非孤立的事实回忆)能力上的根本局限性。

排行榜摘要

该基准评估了 50+ 个大语言模型,具有强大的区分能力。

表现最佳的模型

  • 最佳聊天模型:Qwen3-235B-A22B-Instruct-2507,平均得分 50.40%。
  • 最佳推理模型:OpenAI-GPT-5.1-high,平均得分 62.07%。

排行榜前三名模型

  1. OpenAI-GPT-5.1-high (closed):平均得分 62.07%。
  2. Gemini-3-Pro-Preview-Exp (closed):平均得分 61.75%。
  3. Gemini-2.5-Pro (closed):平均得分 58.93%。

引用信息

如果 Encyclo-K 对您的研究有帮助,请引用我们的论文:

@article{liang2025encyclo0k0, title = {Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements}, author = {Yiming Liang and Yizhi Li and Yantao Du and Ge Zhang and Jiayi Zhou and Yuchen Wu and Yinzhu Piao and Denghui Cao and Tong Sun and Ziniu Li and Li Du and Bo Lei and Jiaheng Liu and Chenghua Lin and Zhaoxiang Zhang and Wenhao Huang and Jiajun Zhang}, year = {2025}, journal = {arXiv preprint arXiv: 2512.24867} }

搜集汇总
数据集介绍
main_image_url
构建方式
在大型语言模型评估领域,传统基准测试常面临数据污染、单知识点评估和专家标注成本高昂等挑战。Encyclo-K创新性地以知识陈述而非完整问题作为构建单元,从根本上重构了基准构建范式。该数据集从涵盖11个学科、43个子领域的62本权威教科书中,通过视觉模型提取了21,525条独立且完整的正确知识陈述,并利用推理模型生成对应的21,494条错误陈述,形成包含43,019条陈述的候选池。在评估阶段,系统通过随机采样机制动态组合8至10条陈述构成问题,每个选项由2至4条陈述组合而成,实现了测试时动态生成,有效规避了数据记忆风险。
特点
Encyclo-K的核心特征体现在其动态评估与多陈述综合理解的设计理念上。数据集通过程序化随机组合机制,在每次测试时生成全新的问题,其组合空间极为庞大,有效抵御了模型对训练数据的记忆与过拟合。每个问题整合了8至10条跨学科知识陈述,要求模型进行联合理解与综合判断,超越了传统单知识点评估的局限。实验表明,即使顶尖模型如GPT-5.1的准确率也仅为62.07%,而推理模型与对话模型呈现出16.04%至62.07%及9.71%至50.40%的清晰梯度分布,展现了强大的模型区分能力。此外,数据集的语义可视化显示,陈述层面存在学科交叉,而问题层面则呈现出清晰的学科聚类,强化了学科特性评估。
使用方法
作为评估大型语言模型百科全书式知识理解能力的动态基准,Encyclo-K支持灵活的参数化评估配置。研究者可通过调整随机种子生成不同的动态问题集,以检验模型排名的稳定性与抗污染能力。评估时,模型需分析问题中给出的多条知识陈述,并从4至8个由陈述组合而成的选项中,识别出所有正确的陈述组合。系统采用多层正则表达式匹配策略从模型输出中提取答案,并支持从样本层面到学科层面不同粒度的性能聚合分析。该框架允许定期发布新的动态问题集,为追踪模型在跨学科、细粒度知识上的综合理解能力提供了可扩展、低成本的标准化评估方案。
背景与挑战
背景概述
随着大语言模型能力的飞速发展,构建能够精准评估其知识理解与综合推理能力的基准测试集成为关键挑战。Encyclo-K数据集由字节跳动、中国科学院大学、南京大学等机构的研究团队于2025年12月提出,旨在通过重构基准构建范式来应对传统评估方法的固有局限。该数据集的核心创新在于以独立的知识陈述而非完整问题作为构建单元,从涵盖11个学科的权威教科书中提取了超过4.3万条知识陈述,并通过动态组合机制在测试时随机生成评估问题。这一设计不仅有效抵御了数据污染风险,还实现了对模型跨多个细粒度知识点的综合理解能力的深度测评,为追踪大语言模型在百科全书式知识整合方面的进展提供了可扩展的评估框架。
当前挑战
Encyclo-K数据集旨在解决大语言模型在跨学科、多知识点综合理解评估中的核心挑战。其首要挑战在于如何设计一种能够抵御数据污染、避免模型通过记忆训练数据中的问题变体来获得虚假高分的动态评估机制。其次,数据集构建需克服传统方法依赖领域专家进行高成本问题标注的瓶颈,转而通过程序化方式从教科书中提取正确陈述并利用模型生成错误陈述,以大幅降低构建成本。最后,评估任务本身要求模型同时处理并整合8至10条知识陈述以做出综合判断,这超越了单一知识点问答的范畴,对模型的工作记忆、错误识别与跨领域推理能力构成了严峻考验,即使顶尖模型在该数据集上的准确率也仅略高于60%,充分揭示了当前模型在深度知识融合方面的能力边界。
常用场景
经典使用场景
在大型语言模型评估领域,Encyclo-K数据集被广泛应用于动态知识理解能力的系统性测评。该数据集通过从权威教科书中提取独立的知识陈述,并在测试时随机组合生成评估问题,构建了一个具有极强抗污染能力的评测框架。其经典使用场景在于对模型跨学科、多知识点的综合理解能力进行量化评估,尤其擅长揭示模型在处理复杂知识聚合任务时的真实性能边界。研究者通常利用该数据集生成动态问题集,以检验模型在避免数据记忆依赖的前提下,对8至10个知识陈述进行联合分析与判断的能力。
解决学术问题
Encyclo-K数据集有效解决了传统基准测试中存在的三个核心学术问题:数据污染风险、单知识点评估局限以及高昂的专家标注成本。通过以知识陈述而非完整问题作为构建单元,该数据集创造了一个组合空间巨大的动态评估环境,使得模型难以通过记忆训练数据中的问题变体来获得虚假的高分。同时,每个问题聚合多个知识陈述的设计,迫使模型必须展现跨知识点的综合理解与推理能力,而非孤立的事实回忆。这种机制显著提升了评估的深度与区分度,为衡量模型真正的知识整合水平提供了可靠标尺。
衍生相关工作
Encyclo-K的创新设计理念催生了一系列关注动态评估与知识综合理解的研究工作。其以知识陈述为原子单元的构建方法,启发了后续研究探索更细粒度的知识元评估框架。数据集展现的多陈述理解挑战,促使学术界深入探究链式推理在知识整合中的作用机制,相关研究进一步验证了显式推理步骤对提升模型综合判断能力的关键价值。同时,该数据集建立的抗污染评估范式,为构建可持续更新的基准测试提供了可扩展的蓝图,推动了动态评估方法论在更广泛语言理解任务中的应用与发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作