svjack/cmmlu_ed
收藏Hugging Face2023-07-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/svjack/cmmlu_ed
下载链接
链接失效反馈官方服务:
资源简介:
CMMLU是一个全面的中文评估套件,专门设计用于评估大型语言模型在中文语言和文化背景下的高级知识和推理能力。CMMLU涵盖了67个主题,从基础到高级专业水平,包括需要计算专长的学科如物理和数学,以及人文和社会科学学科。许多任务由于其特定的上下文细微差别和措辞,不易从其他语言翻译。此外,CMMLU中的许多任务答案特定于中国,可能在其他地区或语言中不适用或不被认为是正确的。每个主题的开发集包含5个问题,测试集包含100多个问题,每个问题都是四选一的多项选择题。
CMMLU是一个全面的中文评估套件,专门设计用于评估大型语言模型在中文语言和文化背景下的高级知识和推理能力。CMMLU涵盖了67个主题,从基础到高级专业水平,包括需要计算专长的学科如物理和数学,以及人文和社会科学学科。许多任务由于其特定的上下文细微差别和措辞,不易从其他语言翻译。此外,CMMLU中的许多任务答案特定于中国,可能在其他地区或语言中不适用或不被认为是正确的。每个主题的开发集包含5个问题,测试集包含100多个问题,每个问题都是四选一的多项选择题。
提供机构:
svjack
原始信息汇总
数据集概述
数据集名称
- CMMLU
数据集描述
- CMMLU 是一个专为评估中文语言模型(LLMs)在高级知识和推理能力方面的综合评估套件。该数据集涵盖了从基础到高级专业水平的67个主题,包括物理、数学、人文和社会科学等多个领域。
数据集特点
- 包含多个选择题,每个问题有四个选项,仅一个正确答案。
- 数据集中的许多任务具有特定的中文语境和用词,不易从其他语言直接翻译。
- 部分任务的答案具有中国特定性,可能不适用于其他地区或语言。
数据集结构
- 提供每个主题的开发和测试数据集。
- 开发集包含5个问题,测试集包含100多个问题。
数据集示例
- 示例问题涉及生物学和植物病毒传播,展示了解答需要专业知识和特定文化背景理解。
数据集使用
- 数据集可通过编程方式加载,支持按主题或全部加载。
数据集许可证
数据集引用
-
引用格式:
@misc{li2023cmmlu, title={CMMLU: Measuring massive multitask language understanding in Chinese}, author={Haonan Li and Yixuan Zhang and Fajri Koto and Yifei Yang and Hai Zhao and Yeyun Gong and Nan Duan and Timothy Baldwin}, year={2023}, eprint={2306.09212}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



