haonan-li/cmmlu

Hugging Face2023-07-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/haonan-li/cmmlu

下载链接

链接失效反馈

资源简介：

CMMLU是一个综合的中文评估套件，专门设计用于评估在中文语言和文化背景下的大规模多任务语言理解能力。它涵盖了67个主题，从基础到高级专业水平，包括需要计算专长的学科如物理和数学，以及人文和社会科学学科。数据集中的许多任务由于其特定的上下文细微差别和措辞，不易从其他语言翻译而来。此外，CMMLU中的许多任务的答案特定于中国，可能在其他地区或语言中不适用或不正确。数据集提供了每个主题的开发和测试数据集，每个问题都是选择题，有4个选项，只有一个正确答案。

提供机构：

haonan-li

原始信息汇总

数据集概述

数据集名称

CMMLU

数据集描述

CMMLU 是一个专为评估大型语言模型（LLMs）在中文语言和文化背景下的高级知识和推理能力而设计的综合评估套件。该数据集覆盖了从基础到高级专业水平的67个主题，包括需要计算专业知识的物理和数学，以及人文和社会科学领域。

数据集特点

包含多个选择题和问答任务。
每个问题都是带有4个选项的多项选择题，仅有一个正确答案。
许多任务因其特定的上下文细微差别和措辞，不易从其他语言翻译。
许多任务的答案特定于中国，可能不适用于其他地区或语言。

数据集结构

提供每个主题的开发和测试数据集。
开发集包含5个问题，测试集包含100多个问题。

数据集使用

数据集可以通过Python代码加载，支持按主题加载或一次性加载所有数据。

数据集许可证

数据集遵循Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

引用信息

@misc{li2023cmmlu, title={CMMLU: Measuring massive multitask language understanding in Chinese}, author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin}, year={2023}, eprint={2306.09212}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

CMMLU数据集是一个专门设计用于评估中文大规模多任务语言理解能力的综合性评估套件。该数据集涵盖了67个主题，从基础到高级专业水平，包括物理学、数学等需要计算能力的学科，以及人文和社会科学领域。每个主题的开发集包含5个问题，测试集包含100多个问题，所有问题均为四选一的多项选择题。数据集的构建充分考虑了中文语言和文化背景的特殊性，确保问题的答案在中国语境下具有唯一性和准确性。

特点

CMMLU数据集的特点在于其广泛的主题覆盖和深入的中文语言文化背景。数据集不仅涵盖了科学和技术领域，还包括了人文和社会科学，特别是那些在其他语言中难以直接翻译的主题。此外，许多问题的答案具有地域特异性，仅在中国语境下成立，这为评估模型在特定文化背景下的理解能力提供了独特的挑战。数据集的多任务设计使得它能够全面评估模型在不同领域的知识和推理能力。

使用方法

CMMLU数据集的使用方法灵活多样，用户可以通过Hugging Face的`datasets`库轻松加载数据。数据集支持按主题加载，用户可以选择特定的主题进行测试或开发。此外，数据集还支持一次性加载所有主题的数据，便于进行大规模的多任务评估。加载数据后，用户可以直接访问每个问题的题干、选项和正确答案，进行模型训练或评估。数据集的使用不仅限于学术研究，还可用于工业界的模型优化和性能测试。

背景与挑战

背景概述

CMMLU数据集由Haonan Li等人于2023年创建，旨在评估大型语言模型（LLMs）在中文语言和文化背景下的多任务理解能力。该数据集涵盖了67个主题，从基础到高级专业水平，涉及物理学、数学、人文社会科学等多个领域。CMMLU的独特之处在于其任务设计充分考虑了中文语境和文化背景，许多问题具有中国特定的答案，难以从其他语言直接翻译。该数据集的发布为中文自然语言处理领域的研究提供了重要的评估工具，推动了LLMs在中文环境下的应用与发展。

当前挑战

CMMLU数据集在构建过程中面临多重挑战。首先，由于任务涵盖广泛的主题，确保每个主题的题目质量和多样性成为一大难题。其次，许多题目需要结合中国特定的文化背景和语境，这对题目的设计和验证提出了更高的要求。此外，数据集的规模较大，涉及67个主题的开发集和测试集，每个主题包含100多个问题，数据收集和标注的工作量巨大。最后，如何确保题目的准确性和一致性，避免歧义和错误，也是构建过程中需要克服的关键挑战。这些挑战不仅影响了数据集的构建效率，也对后续模型的评估提出了更高的要求。

常用场景

经典使用场景

CMMLU数据集广泛应用于评估中文大语言模型（LLMs）的多任务理解能力。通过涵盖67个不同学科的多项选择题，该数据集能够全面测试模型在中文语言和文化背景下的知识广度和推理深度。经典使用场景包括模型性能的基准测试、跨学科知识整合能力的评估，以及模型在特定领域（如医学、法律、教育等）的专业知识掌握情况。

解决学术问题

CMMLU数据集解决了中文大语言模型在复杂多任务环境下的评估难题。传统评估方法往往局限于单一领域或语言，难以全面反映模型的实际能力。CMMLU通过覆盖广泛的学科和具有文化特异性的问题，为研究者提供了一个标准化的评估框架，帮助识别模型在知识理解和推理能力上的短板，推动了中文自然语言处理领域的研究进展。

衍生相关工作

CMMLU数据集的发布催生了一系列相关研究工作，特别是在中文大语言模型的评估和优化领域。例如，基于CMMLU的评估结果，研究者提出了多种改进模型多任务学习能力的方法，包括跨领域知识迁移、多任务联合训练等。此外，CMMLU还被用于开发新的评估指标和工具，进一步推动了中文自然语言处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集