TJUNLP/M3KE

Hugging Face2023-06-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/TJUNLP/M3KE

下载链接

链接失效反馈

资源简介：

M3KE（大规模多层次多学科知识评估）是一个用于评估大型中文语言模型知识获取的基准测试，通过评估模型在零样本和少样本设置下的多任务准确性来进行。该基准测试包含20,477个问题，涵盖71个任务。

提供机构：

TJUNLP

原始信息汇总

数据集概述

基本信息

名称: M3KE
许可证: Apache-2.0
语言: 中文
大小: 10K<n<100K

任务类别

文本分类
问答
多项选择

数据集内容

描述: M3KE（Massive Multi-Level Multi-Subject Knowledge Evaluation）是一个用于评估大型中文语言模型知识获取能力的基准。它包含20,477个问题，覆盖71个任务，旨在测试模型在零样本和少样本设置下的多任务准确性。
数据结构: 数据集包含测试和开发两个部分。测试集有236个样本，开发集有5个样本。每个样本包含id, question, A, B, C, D, answer等特征。

引用信息

论文: 2305.10263
作者: Chuang Liu 等
年份: 2023

搜集汇总

数据集介绍

构建方式

在中文自然语言处理领域，大规模知识评估基准的构建对于衡量语言模型的知识掌握程度至关重要。M3KE数据集通过精心设计的多层次多学科框架，汇集了涵盖71个任务的20,477道题目，其构建过程严格遵循学术规范，题目来源广泛且经过专业筛选，确保了内容的多样性与权威性。数据集的构建不仅注重学科覆盖的全面性，还特别考虑了题目难度与知识深度的平衡，为模型评估提供了坚实的结构化基础。

特点

M3KE数据集以其大规模、多层次和多学科的核心特点脱颖而出，题目覆盖计算机编程、自然科学等多个领域，能够全面评估模型在不同知识维度上的表现。该数据集特别支持零样本和少样本设置下的多任务准确率评估，其结构化设计便于进行细粒度的性能分析。每个任务均配有标准答案与选项，确保了评估过程的客观性与可重复性，为深入研究中文大语言模型的知识边界提供了重要工具。

使用方法

使用M3KE数据集时，研究人员可通过Hugging Face的`datasets`库直接加载，并选择特定学科组合进行针对性评估。数据以标准化的键值对形式呈现，包含问题、选项及参考答案，便于快速集成到现有评估流程中。用户可灵活进行零样本或少量样本的推理测试，通过计算模型预测与标准答案的一致性来量化其知识掌握水平，从而系统性地分析模型在不同学科任务上的性能表现。

背景与挑战

背景概述

随着大规模语言模型在自然语言处理领域的广泛应用，对其知识掌握能力的评估成为研究焦点。2023年，天津大学自然语言处理实验室的研究团队推出了M3KE（大规模多层次多学科知识评估）基准，旨在系统评估中文大语言模型在零样本和少样本设置下的多任务准确性。该数据集涵盖71个任务，包含20,477个问题，涉及计算机编程、自然科学等多个学科，为中文语言模型的综合知识评估提供了重要工具，推动了相关领域评测标准的发展。

当前挑战

M3KE数据集致力于解决中文大语言模型在跨学科知识评估中的挑战，核心在于如何准确衡量模型在多样化任务上的泛化能力。构建过程中，研究人员面临多学科知识整合的复杂性，需确保问题涵盖广泛主题且保持高质量；同时，设计零样本和少样本评估框架时，需平衡任务难度与代表性，以反映模型真实性能。这些挑战使得数据集的构建成为一项艰巨而关键的工作。

常用场景

经典使用场景

在自然语言处理领域，大规模语言模型的评估是推动技术发展的关键环节。M3KE数据集作为中文语言模型知识评估的基准，其经典使用场景在于对模型在零样本和少样本设置下的多任务准确性进行系统性评测。通过涵盖计算机编程语言、自然科学等多个学科的20,477道题目，研究者能够全面检验模型跨领域知识的掌握程度，为模型优化提供量化依据。

衍生相关工作

围绕M3KE数据集，学术界衍生了一系列经典研究工作。这些工作主要聚焦于探索更高效的多任务学习框架，以及开发针对中文语言模型的少样本微调技术。部分研究利用该数据集的层次化结构，深入分析模型在不同学科间的知识迁移能力，为构建更具通用性的智能系统奠定了理论基础，进一步丰富了中文自然语言处理领域的评估方法论。

数据集最近研究