KoLA

arXiv2023-07-07 更新2024-07-31 收录

下载链接：

https://kola.xlore.cn

下载链接

链接失效反馈

资源简介：

一个面向大型语言模型评估的知识导向基准，设计了四个层次的知识相关能力分类，包含19个任务，使用维基百科和新兴语料库进行公平比较，采用对比系统进行评估，包括标准分数和独特的自我对比度量，用于自动评估知识幻觉。

创建时间：

2023-06-16

搜集汇总

数据集介绍

构建方式

在构建KoLA数据集时，研究者们精心设计了三个核心要素以确保评估的全面性与公平性。首先，在能力建模方面，借鉴人类认知理论，构建了一个包含知识记忆、理解、应用与创造的四层分类体系，涵盖了19项具体任务。其次，在数据来源上，采用了已知数据与演化数据相结合的策略：已知数据以维基百科为基础，确保模型在常见知识上的可比性；演化数据则通过持续爬取最新发布的新闻与小说文本，每季度更新500篇文章，以评估模型处理未见数据与知识演进的能力。最后，在评估标准上，引入了对比性评价系统，包括基于相对比较的标准化总体评分，以及用于自动评估知识幻觉的自对比指标，从而提升结果的可靠性与可解释性。

使用方法

KoLA数据集的使用主要通过其在线平台与开源工具包实现。研究者可以以竞争者或贡献者的身份参与评估：竞争者需提供模型的API或参数，通过平台提交结果，平台会为每项任务提供少量示例以辅助调试，且禁止本地评估以防止测试集泄露。贡献者则可通过特别兴趣小组提出改进建议或参与新任务构建。数据集提供了易于使用的工具包，支持任务提交、结果复现与数据获取等功能。评估过程中，模型需在零样本或少量样本设置下完成各项任务，其输出将通过标准化评分与自对比指标进行计算，结果在平台排行榜上动态展示，并随每季度数据更新而持续演进。

背景与挑战

背景概述

在大型语言模型性能取得突破性进展的背景下，传统评估基准已难以全面衡量其深层能力。为此，清华大学研究团队于2023年提出了知识导向的大型语言模型评估基准KoLA，旨在系统评估模型的世界知识掌握程度。该基准以人类认知理论为基础，构建了涵盖记忆、理解、应用与创造的四层能力分类体系，并创新性地融合已知数据与演化数据源，确保评估的公平性与时效性。KoLA通过精心设计的19项任务与对比评估系统，为LLM的知识能力提供了深度诊断工具，对推动知识密集型语言模型的发展具有重要参考价值。

当前挑战

KoLA基准面临的核心挑战体现在两个方面：在领域问题层面，评估模型的知识创造能力尤为复杂，需区分合理创新与知识幻觉，传统生成质量指标难以直接衡量知识忠实性；同时，确保多任务评估结果的跨维度可比性，需解决不同指标灵敏度差异带来的解读困难。在构建过程中，数据公平性保障是一大难点，既要采用广泛预训练的维基百科作为已知数据源以控制训练差异，又需持续收集演化数据以应对模型快速更新带来的测试泄露风险；此外，在有限标注能力下平衡任务覆盖广度与评估深度，并设计自动化评估指标以减少对人工评分的依赖，亦是构建过程中需要克服的关键挑战。

常用场景

经典使用场景

在大型语言模型评估领域，KoLA数据集以其精心设计的认知能力分类体系，为模型的世界知识深度评估提供了经典框架。该数据集通过模拟人类认知过程，构建了从知识记忆到知识创造的四层能力模型，覆盖了实体理解、关系抽取、多跳推理及知识生成等19项任务。研究者通常利用KoLA对模型在已知数据（如维基百科）和演化数据（如新兴新闻）上的表现进行对比分析，从而系统性地诊断模型在知识获取、理解和应用方面的能力边界。

解决学术问题

KoLA致力于解决大型语言模型评估中存在的公平性、深度性和适用性难题。通过引入演化数据源，该数据集缓解了因训练数据差异导致的评估偏差问题，同时其标准化的对比评分体系提升了跨任务结果的数值可比性。在学术层面，KoLA为探究模型知识幻觉、对齐税现象以及模型规模与知识能力之间的关联提供了实证基础，推动了关于语言模型知识表征与人类认知机制异同的深入探讨。

实际应用

在实际应用中，KoLA作为动态评估平台，持续为人工智能开发者提供模型选型与优化依据。企业可利用该基准测试，筛选在特定知识密集型任务中表现优异的语言模型，例如智能客服、知识库构建或内容生成系统。此外，其定期更新的赛季机制使组织能够追踪模型在快速变化信息环境中的适应性，为金融、医疗、教育等领域部署可靠的知识驱动型应用提供了关键参考。

数据集最近研究