ceval/ceval-exam

Hugging Face2025-07-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ceval/ceval-exam

下载链接

链接失效反馈

资源简介：

C-Eval是一个全面的中文基础模型评估套件，包含13948个多项选择题，涵盖52个不同学科和四个难度级别。每个学科包含三个分割：dev、val和test。dev集包含五个带有解释的示例，用于少样本评估；val集用于超参数调整；test集用于模型评估，其标签未发布，用户需提交结果以自动获取测试准确率。

提供机构：

ceval

原始信息汇总

数据集概述

基本信息

名称: C-Eval
许可证: CC-BY-NC-SA-4.0
语言: 中文
大小: 10K<n<100K

任务类别

文本分类
多选题
问答

数据集内容

组成: 包含13948个多选题，覆盖52个不同学科和四个难度级别。
数据划分: 每个学科分为开发集（dev）、验证集（val）和测试集（test）。
- 开发集: 包含五个示例及其解释，用于少样本评估。
- 验证集: 用于超参数调整。
- 测试集: 用于模型评估，测试集的标签未公开，用户需提交结果以自动获取测试准确率。

数据加载示例

python from datasets import load_dataset dataset=load_dataset(r"ceval/ceval-exam",name="computer_network")

print(dataset[val][0])

{id: 0, question: 使用位填充方法，以01111110为位首flag，数据为011011111111111111110010，求问传送时要添加几个0____, A: 1, B: 2, C: 3, D: 4, answer: C, explanation: }

引用信息

@article{huang2023ceval, title={C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models}, author={Huang, Yuzhen and Bai, Yuzhuo and Zhu, Zhihao and Zhang, Junlei and Zhang, Jinghan and Su, Tangjun and Liu, Junteng and Lv, Chuancheng and Zhang, Yikai and Lei, Jiayi and Fu, Yao and Sun, Maosong and He, Junxian}, journal={arXiv preprint arXiv:2305.08322}, year={2023} }

搜集汇总

数据集介绍

构建方式

C-Eval 数据集是通过收集各类考试题目和答案构建而成的。该数据集包含多个科目，如会计、高等数学、艺术研究、基础医学、商业管理等，每个科目都包含测试、验证和开发三个数据集。数据集中的每个示例都包含问题、四个选项、答案和解释，为文本分类、多项选择和问答任务提供了丰富的训练和测试数据。

使用方法

C-Eval 数据集的使用方法如下：首先，用户可以根据需要选择合适的科目和配置，下载对应的数据集。然后，用户可以使用数据集中的测试集、验证集和开发集进行模型训练和评估。最后，用户可以根据数据集中的问题和答案进行文本分类、多项选择和问答任务的实验和研究。

背景与挑战

背景概述

C-Eval数据集是一个中文教育评估的数据集，包含了多个学科领域的多项选择题和问答题目。该数据集的创建旨在为中文教育评估领域提供一个标准化的测试平台，以便于研究和开发能够准确评估学生知识水平的人工智能模型。数据集包含了会计、高级数学、艺术研究、基础医学、商业管理、中文语言文学、公务员、临床医学、大学化学、大学经济学、大学物理、大学编程、计算机体系结构、计算机网络、离散数学、教育科学、电气工程师、环境影响评估工程师、消防工程师、高中生物学、高中化学、高中中文、高中地理、高中历史、高中数学、高中物理、高中政治、思想道德修养、法律、法律职业、逻辑、毛泽东思想、马克思主义、计量工程师、中学生物学、中学化学、中学地理、中学历史、中学数学、中学物理、中学政治、中国近现代史、操作系统、医师、植物保护、概率与统计、职业导游、体育科学、税务会计、教师资格、城乡规划师、兽医学等多个学科领域的题目。这些题目被分为测试集、验证集和开发集三个部分，以便于研究人员进行模型训练和评估。C-Eval数据集的创建为中文教育评估领域的研究提供了宝贵的资源，有助于推动该领域的发展。

当前挑战

C-Eval数据集的构建过程中面临着多方面的挑战。首先，数据集的创建需要收集大量的中文教育评估题目，这些题目需要涵盖多个学科领域，并且需要保证题目的质量和难度适中。其次，数据集的构建需要将题目进行标准化处理，以便于模型进行训练和评估。此外，数据集的构建还需要考虑题目的版权问题，以确保数据的合法性和可靠性。在所解决的领域问题方面，C-Eval数据集的挑战在于如何构建一个能够准确评估学生知识水平的人工智能模型。这需要模型能够理解中文语言，并能够处理不同学科领域的知识和问题。因此，C-Eval数据集的构建和使用对于推动中文教育评估领域的研究具有重要的意义。

常用场景

经典使用场景

C-Eval 数据集广泛应用于文本分类、多项选择和问答系统等自然语言处理任务中。该数据集包含了丰富多样的学科领域，如会计、数学、文学、医学、商业管理等，使得研究者能够在不同领域进行模型训练和评估，从而提升模型的泛化能力和鲁棒性。

解决学术问题

C-Eval 数据集为自然语言处理领域的研究提供了宝贵的资源。它解决了传统数据集在学科领域覆盖不全面、数据规模较小等问题，为文本分类、问答系统和多项选择等任务的模型训练提供了更广泛和深入的数据支持，有助于推动自然语言处理技术的发展。

实际应用

C-Eval 数据集在实际应用场景中发挥着重要作用。它可以用于教育培训、智能客服、智能推荐等场景。例如，在教育培训领域，可以利用 C-Eval 数据集训练出的模型对学生的作业或考试答案进行自动评分，从而提高教育效率；在智能客服领域，可以利用 C-Eval 数据集训练出的模型对用户的问题进行自动分类和回答，从而提升客户服务质量。

数据集最近研究