five

XiaHan19/cmmlu

收藏
Hugging Face2023-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/XiaHan19/cmmlu
下载链接
链接失效反馈
官方服务:
资源简介:
CMMLU是一个综合的中文评估套件,专门设计用于评估在中文语言和文化背景下的大规模多任务语言理解能力。该数据集涵盖了67个主题,从基础到高级专业水平,包括需要计算能力的学科如物理和数学,以及人文和社会科学领域的学科。数据集的每个问题都是四选一的选择题,且只有一个正确答案。数据集提供了开发和测试数据集,每个主题的开发集包含5个问题,测试集包含100多个问题。

CMMLU is a comprehensive Chinese evaluation suite specifically designed to evaluate large-scale multi-task language understanding capabilities in the context of Chinese language and culture. This dataset covers 67 topics ranging from basic to advanced professional levels, including disciplines requiring computational skills such as physics and mathematics, as well as subjects in the humanities and social sciences. Each question in the dataset is a four-option multiple-choice question with exactly one correct answer. The dataset provides both development and test datasets: for each topic, the development set contains 5 questions, while the test set includes more than 100 questions.
提供机构:
XiaHan19
原始信息汇总

CMMLU 数据集概述

基本信息

  • 许可证: cc-by-nc-4.0
  • 任务类别:
    • 多项选择
    • 问答
  • 语言: 中文
  • 标签:
    • 中文
    • LLM
    • 评估
  • 名称: CMMLU
  • 数据量: 10K<n<100K

简介

CMMLU 是一个综合性的中文评估套件,专门设计用于评估大型语言模型(LLMs)在中文语言和文化背景下的高级知识和推理能力。CMMLU 涵盖了从初级到高级专业水平的 67 个主题,包括需要计算专业知识的物理和数学,以及人文和社会科学领域。许多任务由于其特定的上下文细微差别和用词,不易从其他语言翻译过来。此外,CMMLU 中的许多任务答案具有中国特定性,可能在其他地区或语言中不适用或不被认为是正确的。

数据结构

CMMLU 为每个主题提供了开发和测试数据集,每个开发集包含 5 个问题,每个测试集包含 100+ 个问题。每个问题都是多项选择题,有 4 个选项,只有一个选项是正确答案。

数据加载

可以使用 datasets 库加载数据集,示例如下: python from datasets import load_dataset cmmlu = load_dataset(r"haonan-li/cmmlu", agronomy) print(cmmlu[test][0])

也可以一次性加载所有数据: python task_list = [agronomy, anatomy, ancient_chinese, arts, astronomy, business_ethics, chinese_civil_service_exam, chinese_driving_rule, chinese_food_culture, chinese_foreign_policy, chinese_history, chinese_literature, chinese_teacher_qualification, clinical_knowledge, college_actuarial_science, college_education, college_engineering_hydrology, college_law, college_mathematics, college_medical_statistics, college_medicine, computer_science, computer_security, conceptual_physics, construction_project_management, economics, education, electrical_engineering, elementary_chinese, elementary_commonsense, elementary_information_and_technology, elementary_mathematics, ethnology, food_science, genetics, global_facts, high_school_biology, high_school_chemistry, high_school_geography, high_school_mathematics, high_school_physics, high_school_politics, human_sexuality, international_law, journalism, jurisprudence, legal_and_moral_basis, logical, machine_learning, management, marketing, marxist_theory, modern_chinese, nutrition, philosophy, professional_accounting, professional_law, professional_medicine, professional_psychology, public_relations, security_study, sociology, sports_science, traditional_chinese_medicine, virology, world_history, world_religions]

from datasets import load_dataset cmmlu = {k: load_dataset(r"haonan-li/cmmlu", k) for k in task_list}

引用

@misc{li2023cmmlu, title={CMMLU: Measuring massive multitask language understanding in Chinese}, author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin}, year={2023}, eprint={2306.09212}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

CMMLU 数据集的许可证是 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

搜集汇总
数据集介绍
main_image_url
构建方式
CMMLU数据集的构建,旨在评估大型语言模型在中文语言及文化语境下的高级知识和推理能力。该数据集涵盖了67个学科主题,跨越从基础到高级专业水平,涉及计算专业知识如物理和数学,以及人文社会科学领域的学科。数据集内的问题因其特定的语境和措辞,多数不易从其他语言直接翻译而来,且众多问题的答案具有中国特异性,不一定在其他地区或语言中适用。每个学科主题都提供了开发和测试数据集,开发集包含5个问题,测试集包含100个以上的问题。每个问题均为单项选择题,包含4个选项,其中只有一个是正确答案。
特点
CMMLU数据集的特点在于其全面覆盖了中文多任务语言理解的评估,特别强调了中国特有语境和文化背景下的知识。它不仅测试模型在通用知识领域的理解能力,还包括了对专业知识掌握的考核。此外,数据集中的问题设计考虑到了中文语境的细微差别,确保了评估的准确性和全面性。该数据集的构建,为中文语言模型的理解和推理能力评估提供了重要基准。
使用方法
使用CMMLU数据集,用户可以通过Hugging Face的datasets库加载特定学科的数据集,如加载农业学科的数据集。此外,用户也可以一次性加载所有学科的数据集。加载后,用户可以访问开发集和测试集中的问题,以对模型进行训练和评估。每个学科的数据集都遵循相同的格式,便于模型在不同任务间的迁移学习。
背景与挑战
背景概述
CMMLU数据集,全称为Chinese Massive Multitask Language Understanding,是一个专为评估大型语言模型在中文语言及文化背景下高级知识和推理能力而设计的综合评估套件。该数据集由Haonan Li等研究人员于2023年创建,涵盖了从基础到高级专业水平共67个学科领域,包括计算专业知识如物理、数学,以及人文社会科学等学科。CMMLU数据集的特殊之处在于其任务难以从其他语言直接翻译,许多问题的答案更是具有中国特定性,无法在其它地区或语言中普遍适用。该数据集的构建,对于推动中文自然语言处理技术的发展与评估具有重大意义,填补了中文多任务语言理解能力评估的空白。
当前挑战
CMMLU数据集在构建过程中面临的挑战主要包括两个方面:一是如何确保所设计的任务能够全面而准确地评估模型在中文环境下的理解和推理能力;二是由于涵盖学科广泛,每个学科领域的专业知识都需要严谨的考量,以确保问题的准确性和答案的唯一性。此外,数据集在应对不同文化和地区差异上,尤其是将具有中国特定性的答案纳入评估体系,也构成了一个独特的挑战。这些挑战不仅考验了研究团队的专业知识,也对其跨学科综合能力提出了要求。
常用场景
经典使用场景
在人工智能领域,尤其是中文自然语言处理的研究与应用中,CMMLU数据集以其全面覆盖中国语言和文化背景下的大量多任务语言理解评估,成为检验大型语言模型高级知识及推理能力的经典工具。该数据集包含67个学科主题,涵盖了从基础到专业级别的广泛内容,其设计旨在为研究者提供一个多维度的语言理解能力评估平台。
实际应用
实际应用中,CMMLU数据集不仅用于学术研究,还被广泛应用于教育和训练领域,例如用于开发智能教育辅助系统和在线学习平台。通过该数据集,开发者可以训练出能够理解并回答涉及中国特有知识问题的智能模型,服务于更广泛的用户需求。
衍生相关工作
基于CMMLU数据集,学术界衍生出了多项相关工作,包括但不限于对数据集的分析研究,改进模型在特定任务上的表现,以及开发新的评估指标和框架。这些相关工作进一步推动了中文自然语言处理技术的发展,并促进了跨学科的研究合作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作