Encyclo-K
收藏Encyclo-K 数据集概述
数据集简介
Encyclo-K 是一个基于知识陈述的基准测试,它从根本上重新思考了基准测试的构建方式。其核心观点是:问题本身不一定是构建的最小单元——独立的知识陈述可以成为构建单元。
该数据集从权威教科书中提取独立的知识陈述,并在测试时通过随机采样动态地将这些陈述组合成评估问题。其组合空间过于庞大而无法被记忆,从而支持可靠的数据集定期更新。
关键特性
- 动态评估:从权威教科书中提取独立的知识陈述,并在测试时通过随机采样动态组合成评估问题。
- 多陈述理解:每个问题聚合 8-10 个陈述,用于全面的多知识评估,超越了单陈述问题所能探究的范围。
- 经济高效的标注:标注者仅需验证格式合规性,无需领域专业知识,大幅降低了标注成本。
- 抗污染性:即使单个陈述出现在训练数据中,它们的组合也形成了一个过于庞大而无法记忆的组合空间。
数据集概览
- 问题总数:5,038
- 问题构成:每个问题包含 8–10 个陈述、4–8 个选项和 2–4 个组合。
- 覆盖范围:涵盖 11 个学科、44 个领域和 62 个子领域。
问题学科分布
| 学科 | 问题数量 | 占比 |
|---|---|---|
| 科学 | 1,242 | 24.7% |
| 工程 | 892 | 17.7% |
| 医学 | 654 | 13% |
| 经济学 | 489 | 9.7% |
| 法学 | 387 | 7.7% |
| 历史学 | 312 | 6.2% |
| 教育学 | 276 | 5.5% |
| 管理学 | 234 | 4.6% |
| 社会学 | 198 | 3.9% |
| 哲学 | 198 | 3.9% |
| 文学 | 156 | 3.1% |
关键发现
单陈述与多陈述性能对比:模型在从单陈述判断任务过渡到多陈述综合理解任务时,始终表现出显著的性能下降。这揭示了当前大语言模型在联合推理多个知识点(而非孤立的事实回忆)能力上的根本局限性。
排行榜摘要
该基准评估了 50+ 个大语言模型,具有强大的区分能力。
表现最佳的模型:
- 最佳聊天模型:Qwen3-235B-A22B-Instruct-2507,平均得分 50.40%。
- 最佳推理模型:OpenAI-GPT-5.1-high,平均得分 62.07%。
排行榜前三名模型:
- OpenAI-GPT-5.1-high (closed):平均得分 62.07%。
- Gemini-3-Pro-Preview-Exp (closed):平均得分 61.75%。
- Gemini-2.5-Pro (closed):平均得分 58.93%。
引用信息
如果 Encyclo-K 对您的研究有帮助,请引用我们的论文:
@article{liang2025encyclo0k0, title = {Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements}, author = {Yiming Liang and Yizhi Li and Yantao Du and Ge Zhang and Jiayi Zhou and Yuchen Wu and Yinzhu Piao and Denghui Cao and Tong Sun and Ziniu Li and Li Du and Bo Lei and Jiaheng Liu and Chenghua Lin and Zhaoxiang Zhang and Wenhao Huang and Jiajun Zhang}, year = {2025}, journal = {arXiv preprint arXiv: 2512.24867} }




