M3KE

Name: M3KE
Creator: 天津大学智能与计算学部
Published: 2023-05-21 11:57:11
License: 暂无描述

arXiv2023-05-21 更新2024-06-21 收录

下载链接：

https://github.com/tjunlp-lab/M3KE

下载链接

链接失效反馈

官方服务：

资源简介：

M3KE是一个针对中文大型语言模型的知识评估基准，包含20,477个问题，覆盖从小学到大学的所有主要教育水平，涵盖人文、历史、政治、法律、教育、心理学、科学、技术、艺术和宗教等多个学科。该数据集旨在通过零样本和少样本设置测试中文大型语言模型的多任务准确性，以衡量其知识获取能力。数据集中的所有问题均为四选项选择题，确保评估过程的标准化和统一。

M3KE is a knowledge evaluation benchmark tailored for Chinese large language models, which consists of 20,477 questions covering all major educational levels from primary school to university and spanning multiple disciplines including humanities, history, politics, law, education, psychology, science, technology, art, and religion. This benchmark is designed to test the multi-task accuracy of Chinese large language models under zero-shot and few-shot settings, so as to measure their knowledge acquisition capabilities. All questions in this dataset are four-option multiple-choice questions, ensuring the standardization and consistency of the evaluation process.

提供机构：

天津大学智能与计算学部

创建时间：

2023-05-17

搜集汇总

数据集介绍

构建方式

在中文大语言模型知识评估领域，M3KE数据集的构建体现了系统性与代表性原则。研究团队从公开网络资源中广泛收集了涵盖中国教育体系主要阶段的多项选择题，包括小学、初中、高中、大学及专业考试等层级。为确保试题质量与覆盖面，构建过程优先选取了各类入学考试真题，并依据中国教育体系的教学大纲进行科目筛选。例如，针对大学阶段，数据主要来源于中国硕士研究生全国统一入学考试的相关科目。此外，数据集还纳入了公务员考试、古代汉语、小说推理等综合性任务，以扩展知识的评估维度。最终，经过系统整理与划分，形成了包含71项任务、总计20,477道试题的标准化评估集合，其中每个任务的测试集均包含至少100道题目，并单独划分出包含5道题的少样本示例集。

使用方法

M3KE数据集旨在为零样本和少样本场景下的大语言模型知识评估提供标准化测试平台。使用时，评估者需遵循统一的提示词模板构建模型输入。在零样本设置下，输入由指令、问题文本、四个选项及固定的后缀组成。在少样本设置下，则需在问题前附加同一任务下的数个示例（通常为五个）。模型生成输出后，仅提取其输出的选项标识符（A、B、C、D）作为最终答案，并与标准答案比对以计算准确率。该流程允许研究者系统性地衡量不同规模与训练范式的模型在无需任务特定微调的情况下，所内化知识的广度与深度，尤其适用于追踪中文大语言模型在跨学科、跨教育层级知识应用上的进展与瓶颈。

背景与挑战

背景概述

随着大规模语言模型在跨任务泛化与指令遵循方面取得突破性进展，全面评估其知识获取与应用能力成为自然语言处理领域的关键议题。2023年，天津大学与华为诺亚方舟实验室的研究团队联合发布了M3KE（大规模多层次多学科知识评估基准），旨在系统衡量中文大语言模型在零样本与少样本设置下的多任务知识水平。该基准涵盖从小学至大学的全部主要教育阶段，涉及人文、历史、政治、法律、教育、心理学、科学、技术、艺术与宗教等广泛学科，共包含71项任务、20,477道标准化四选一选择题。M3KE的构建填补了中文教育体系下综合性知识评估基准的空白，为追踪中文大语言模型的知识演进提供了重要工具。

当前挑战

M3KE所应对的核心领域挑战在于如何全面评估大语言模型在复杂知识体系下的理解与应用能力。传统单任务评估基准难以衡量模型的多任务泛化性能，而现有英文基准如MMLU又无法直接适用于中文教育语境下的知识评估。在构建过程中，研究团队面临多重挑战：一是需确保题目覆盖中国教育体系的各个主要阶段与学科，同时保证题目的质量与代表性，大量题目选自公开考试以维持权威性；二是需处理不同学科与教育级别间题目难度与知识密度的差异，实现评估过程的标准化与统一化；三是需设计合理的评估框架，以支持零样本与少样本设置下的稳定性能比较，从而准确反映模型的知识获取水平。

常用场景

经典使用场景

在中文大语言模型能力评估领域，M3KE数据集作为一项大规模、多层级、多学科的知识评测基准，其经典使用场景主要集中于零样本与少样本学习环境下的模型知识掌握度测试。该数据集通过覆盖从小学至大学的全教育阶段，并广泛纳入人文、历史、政治、法律、教育、心理学、科学、技术、艺术与宗教等学科，为研究者提供了一个标准化、统一化的评估框架，用以系统检验模型在多样化任务中的知识获取与应用能力。

解决学术问题

M3KE数据集有效应对了传统单任务评测基准在衡量大语言模型知识广度与深度时的不足，解决了跨学科知识综合评估的学术难题。通过构建与中文教育体系紧密对齐的多选题评测体系，该数据集使得研究者能够量化模型在真实教育语境下的知识表现，填补了中文大语言模型在系统性知识评测方面的空白，并为模型优化与能力演进提供了可靠的度量标准。

实际应用

在实际应用层面，M3KE数据集被广泛用于各类中文大语言模型的性能对比与能力追踪。教育科技企业可借助该数据集评估智能辅导系统的学科知识覆盖度；研究机构则能通过其在零样本与少样本设定下的测试结果，分析模型在不同教育阶段与学科集群中的表现差异，从而指导模型训练数据的优化与指令微调策略的改进。

数据集最近研究