XiaHan19/cmmlu|语言模型评估数据集|中文理解数据集

hugging_face2023-10-20 更新2024-03-04 收录

语言模型评估

中文理解

下载链接：

https://hf-mirror.com/datasets/XiaHan19/cmmlu

下载链接

链接失效反馈

资源简介：

CMMLU是一个综合的中文评估套件，专门设计用于评估在中文语言和文化背景下的大规模多任务语言理解能力。该数据集涵盖了67个主题，从基础到高级专业水平，包括需要计算能力的学科如物理和数学，以及人文和社会科学领域的学科。数据集的每个问题都是四选一的选择题，且只有一个正确答案。数据集提供了开发和测试数据集，每个主题的开发集包含5个问题，测试集包含100多个问题。

提供机构：

XiaHan19

原始信息汇总

CMMLU 数据集概述

基本信息

许可证: cc-by-nc-4.0
任务类别:
- 多项选择
- 问答
语言: 中文
标签:
- 中文
- LLM
- 评估
名称: CMMLU
数据量: 10K<n<100K

简介

CMMLU 是一个综合性的中文评估套件，专门设计用于评估大型语言模型（LLMs）在中文语言和文化背景下的高级知识和推理能力。CMMLU 涵盖了从初级到高级专业水平的 67 个主题，包括需要计算专业知识的物理和数学，以及人文和社会科学领域。许多任务由于其特定的上下文细微差别和用词，不易从其他语言翻译过来。此外，CMMLU 中的许多任务答案具有中国特定性，可能在其他地区或语言中不适用或不被认为是正确的。

数据结构

CMMLU 为每个主题提供了开发和测试数据集，每个开发集包含 5 个问题，每个测试集包含 100+ 个问题。每个问题都是多项选择题，有 4 个选项，只有一个选项是正确答案。

数据加载

可以使用 datasets 库加载数据集，示例如下： python from datasets import load_dataset cmmlu = load_dataset(r"haonan-li/cmmlu", agronomy) print(cmmlu[test][0])

也可以一次性加载所有数据： python task_list = [agronomy, anatomy, ancient_chinese, arts, astronomy, business_ethics, chinese_civil_service_exam, chinese_driving_rule, chinese_food_culture, chinese_foreign_policy, chinese_history, chinese_literature, chinese_teacher_qualification, clinical_knowledge, college_actuarial_science, college_education, college_engineering_hydrology, college_law, college_mathematics, college_medical_statistics, college_medicine, computer_science, computer_security, conceptual_physics, construction_project_management, economics, education, electrical_engineering, elementary_chinese, elementary_commonsense, elementary_information_and_technology, elementary_mathematics, ethnology, food_science, genetics, global_facts, high_school_biology, high_school_chemistry, high_school_geography, high_school_mathematics, high_school_physics, high_school_politics, human_sexuality, international_law, journalism, jurisprudence, legal_and_moral_basis, logical, machine_learning, management, marketing, marxist_theory, modern_chinese, nutrition, philosophy, professional_accounting, professional_law, professional_medicine, professional_psychology, public_relations, security_study, sociology, sports_science, traditional_chinese_medicine, virology, world_history, world_religions]

from datasets import load_dataset cmmlu = {k: load_dataset(r"haonan-li/cmmlu", k) for k in task_list}

引用

@misc{li2023cmmlu, title={CMMLU: Measuring massive multitask language understanding in Chinese}, author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin}, year={2023}, eprint={2306.09212}, archivePrefix={arXiv}, primaryClass={cs.CL} }

许可证

CMMLU 数据集的许可证是 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

AI搜集汇总

数据集介绍

构建方式

CMMLU数据集的构建，旨在评估大型语言模型在中文语言及文化语境下的高级知识和推理能力。该数据集涵盖了67个学科主题，跨越从基础到高级专业水平，涉及计算专业知识如物理和数学，以及人文社会科学领域的学科。数据集内的问题因其特定的语境和措辞，多数不易从其他语言直接翻译而来，且众多问题的答案具有中国特异性，不一定在其他地区或语言中适用。每个学科主题都提供了开发和测试数据集，开发集包含5个问题，测试集包含100个以上的问题。每个问题均为单项选择题，包含4个选项，其中只有一个是正确答案。

特点

CMMLU数据集的特点在于其全面覆盖了中文多任务语言理解的评估，特别强调了中国特有语境和文化背景下的知识。它不仅测试模型在通用知识领域的理解能力，还包括了对专业知识掌握的考核。此外，数据集中的问题设计考虑到了中文语境的细微差别，确保了评估的准确性和全面性。该数据集的构建，为中文语言模型的理解和推理能力评估提供了重要基准。

使用方法

使用CMMLU数据集，用户可以通过Hugging Face的datasets库加载特定学科的数据集，如加载农业学科的数据集。此外，用户也可以一次性加载所有学科的数据集。加载后，用户可以访问开发集和测试集中的问题，以对模型进行训练和评估。每个学科的数据集都遵循相同的格式，便于模型在不同任务间的迁移学习。

背景与挑战

背景概述

CMMLU数据集，全称为Chinese Massive Multitask Language Understanding，是一个专为评估大型语言模型在中文语言及文化背景下高级知识和推理能力而设计的综合评估套件。该数据集由Haonan Li等研究人员于2023年创建，涵盖了从基础到高级专业水平共67个学科领域，包括计算专业知识如物理、数学，以及人文社会科学等学科。CMMLU数据集的特殊之处在于其任务难以从其他语言直接翻译，许多问题的答案更是具有中国特定性，无法在其它地区或语言中普遍适用。该数据集的构建，对于推动中文自然语言处理技术的发展与评估具有重大意义，填补了中文多任务语言理解能力评估的空白。

当前挑战

CMMLU数据集在构建过程中面临的挑战主要包括两个方面：一是如何确保所设计的任务能够全面而准确地评估模型在中文环境下的理解和推理能力；二是由于涵盖学科广泛，每个学科领域的专业知识都需要严谨的考量，以确保问题的准确性和答案的唯一性。此外，数据集在应对不同文化和地区差异上，尤其是将具有中国特定性的答案纳入评估体系，也构成了一个独特的挑战。这些挑战不仅考验了研究团队的专业知识，也对其跨学科综合能力提出了要求。

常用场景

经典使用场景

在人工智能领域，尤其是中文自然语言处理的研究与应用中，CMMLU数据集以其全面覆盖中国语言和文化背景下的大量多任务语言理解评估，成为检验大型语言模型高级知识及推理能力的经典工具。该数据集包含67个学科主题，涵盖了从基础到专业级别的广泛内容，其设计旨在为研究者提供一个多维度的语言理解能力评估平台。

实际应用

实际应用中，CMMLU数据集不仅用于学术研究，还被广泛应用于教育和训练领域，例如用于开发智能教育辅助系统和在线学习平台。通过该数据集，开发者可以训练出能够理解并回答涉及中国特有知识问题的智能模型，服务于更广泛的用户需求。

衍生相关工作

基于CMMLU数据集，学术界衍生出了多项相关工作，包括但不限于对数据集的分析研究，改进模型在特定任务上的表现，以及开发新的评估指标和框架。这些相关工作进一步推动了中文自然语言处理技术的发展，并促进了跨学科的研究合作。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL，主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

GHCN

GHCN（Global Historical Climatology Network）是一个全球历史气候网络数据集，包含了全球各地气象站记录的每日气象数据，如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

Population and Housing Census of 2007 - Ethiopia

Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.

catalog.ihsn.org 收录

中国行政区划shp数据

中国行政区划数据是重要的基础地理信息数据，目前不同来源的全国行政区划数据非常多，但能够开放获取的高质量行政区域数据少之又少。基于此，锐多宝的地理空间制作一套2013-2023年可开放获取的高质量行政区划数据。该套数据以2022年国家基础地理信息数据中的县区划数据作为矢量基础，辅以高德行政区划数据、天地图行政区划数据，参考历年来民政部公布的行政区划为属性基础，具有时间跨度长、属性丰富、国界准确、更新持续等特性。中国行政区划数据统计截止时间是2023年2月12日，包含省、市、县、国界、九段线等矢量shp数据。该数据基于2020年行政区划底图，按时间顺序依次制作了2013-2023年初的行政区划数据。截止2023年1月1日，我国共有34个省级单位，分别是4个直辖市、23个省、5个自治区和2个特别行政区。截止2023年1月1日，我国共有333个地级单位，分别是293个地级市、7个地区、30个自治州和3个盟，其中38个矢量要素未纳入统计（比如直辖市北京等、特别行政区澳门等、省直辖县定安县等）。截止2023年1月1日，我国共有2843个县级单位，分别是1301个县、394个县级市、977个市辖区、117个自治县、49个旗、3个自治旗、1个特区和1个林区，其中9个矢量要素未纳入县级类别统计范畴（比如特别行政区香港、无县级单位的地级市中山市东莞市等）。

CnOpenData 收录

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录