CJEval

Name: CJEval
Creator: 腾讯优图实验室, 北京大学
Published: 2024-09-25 00:00:28
License: 暂无描述

arXiv2024-09-25 更新2024-09-26 收录

下载链接：

https://github.com/SmileWHC/CJEval

下载链接

链接失效反馈

官方服务：

资源简介：

CJEval是一个基于中国初中考试数据的新型评估基准，由腾讯优图实验室和北京大学联合开发。该数据集包含26,136个样本，涵盖四个应用级别的教学任务和十个学科。数据集不仅包括问题和答案，还详细标注了问题类型、难度级别、知识概念和答案解释。创建过程中，数据集通过真实考试题目收集，并由教育专家手动标注。CJEval旨在全面评估大型语言模型在教育领域的应用潜力，解决现有基准在教育应用中的局限性。

CJEval is a novel evaluation benchmark based on Chinese junior high school examination data, jointly developed by Tencent YouTu Lab and Peking University. This dataset contains 26,136 samples, covering four application-level instructional tasks and ten subjects. In addition to questions and answers, it also includes detailed annotations for question types, difficulty levels, knowledge concepts and answer explanations. During its creation, the dataset was collected from real examination questions and manually annotated by educational experts. CJEval aims to comprehensively evaluate the application potential of large language models in the educational field, addressing the limitations of existing benchmarks in educational applications.

提供机构：

腾讯优图实验室, 北京大学

创建时间：

2024-09-25

原始信息汇总

CJEval: 评估大型语言模型使用中国初中考试数据的综合基准

简介

CJEval 是一个基于中国初中考试评估的综合基准。它包含 26,136 个样本，涵盖四个应用级别的教学任务，涉及十个学科。这些样本不仅包括问题和答案，还包括详细的注释，如问题类型、难度级别、知识概念和答案解释。

数据集统计

表: CJEval 的整体统计数据。

	SCQs	MRQs	TFQs	FBQs	AQs
No.S	10	5	5	9	7
No.Q	7,701	2,569	3,729	6,193	5,944
Avg.Q Tokens	112.8	211.7	102.1	107.1	376.9
Avg.A Tokens	1	2.65	1.35	22.6	73.3
Avg.AE Tokens	232.8	313.9	211.8	241.6	372.7
Avg.No.KC	2.4	2.7	2.7	2.4	2.6

S: 学科。Q: 问题。KC: 知识概念。AE: 答案解释。No.S 表示在相应问题类型下涵盖的学科数量。Avg.No.KC 表示每个问题关联的平均知识概念数量。数据集分割方面，训练集、验证集、测试集和总集分别包含 20,820、2,106、3,210 和 26,136 个问题。

展示: json {"subject": "初中生物", "ques_type": "单选题", "ques_difficulty": "一般", "ques_content": "在下列生物中，哪个具有完整的细胞核？ ( ) 选项: A. 酵母菌 B. 肝炎病毒 C. 乳酸菌 D. 大肠杆菌", "ques_answer": ["A"], "ques_analyze": "此题考查不同生物的细胞结构特点。 A. 酵母菌是属于真菌类的生物，真菌细胞具有成形的细胞核，因此选项A正确。 B. 肝炎病毒没有细胞结构，是非细胞生物，不具备成形的细胞核，所以选项B错误。 C. 乳酸菌属于细菌类，细菌细胞没有成形的细胞核，所以选项C错误。 D. 大肠杆菌也是细菌类，同样无成形细胞核，因此选项D错误。通过上述分析，确定选项A为正确答案。理解病毒、细菌和真菌在细胞结构上的区别是解答此类题目的关键。", "ques_knowledges": ["细菌和真菌的区别", "病毒的结构特征"]}

基准测试

表: 在零样本设置下，四个基于问题的任务的总体结果总结如下。

伦理

CJEval 源自实际的初中考试题目，经过精心重写和严格审查。CJEval 数据集仅用于学术和研究目的。严禁任何商业用途或偏离这些目的的滥用。

遵守这些指南对于维护数据集的完整性和确保道德使用至关重要。

引用

CJEval: 评估大型语言模型使用中国初中考试数据的综合基准

https://arxiv.org/abs/2409.16202

如果您发现我们的项目对您的研究有帮助，请考虑引用它:

@article{zhang2024cjeval, title={CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data}, author={Qian-Wen Zhang and Haochen Wang and Fang Li and Siyu An and Lingfeng Qiao and Liangcai Gao and Di Yin and Xing Sun}, year={2024}, eprint={2409.16202}, archivePrefix={arXiv}, primaryClass={cs.AI}, }

搜集汇总

数据集介绍

构建方式

CJEval数据集的构建基于中国初中考试的真实题目，涵盖了四个应用级别的教学任务，跨越十个学科。该数据集包含了26,136个样本，不仅包括问题和答案，还详细标注了问题类型、难度级别、知识概念及答案解释。通过整合多样化的任务和数据注释，CJEval旨在创建一个更全面和稳健的教育大语言模型评估参考数据集。

使用方法

CJEval数据集可用于多种教育任务的评估和模型微调。用户可以通过该数据集进行知识概念标注、问题难度预测、问题回答和问题生成等任务的训练和测试。具体使用方法包括：首先，根据任务需求选择相应的数据子集；其次，利用数据集中的详细注释信息进行模型训练；最后，通过对比模型在测试集上的表现，评估其在教育领域的应用潜力。

背景与挑战

背景概述

随着在线教育平台的兴起，教育资源的传播方式发生了显著变化，大型语言模型（LLMs）如ChatGPT和Llama的出现进一步提升了这些平台的智能化水平。然而，现有的学术基准在实际行业应用中提供的指导有限，特别是在教育应用中，不仅需要简单的测试问题回答。为了填补这一空白，我们引入了CJEval，这是一个基于中国初中考试评估的基准。CJEval包含26,136个样本，涵盖四个应用级别的教学任务，涉及十个科目。这些样本不仅包括问题和答案，还包括问题类型、难度级别、知识概念和答案解释等详细注释。通过利用这一基准，我们评估了LLMs在教育领域的潜在应用，并对它们在各种教学任务上的表现进行了全面分析。

当前挑战

CJEval面临的挑战主要集中在两个方面：一是解决教育领域中复杂问题的能力，包括理解学生的具体问题并应用专业教学知识提供有效解决方案；二是数据集构建过程中遇到的挑战，如确保数据集的多样性和全面性，以及在注释过程中保持高质量和一致性。此外，现有的基准主要集中在多选题上，这可能限制了模型在更复杂教育评估中的全面能力。CJEval通过整合多样化的任务和多维度的注释信息，旨在创建一个更全面和强大的教育LLMs评估参考数据集。

常用场景

经典使用场景

CJEval数据集的经典使用场景主要集中在评估大型语言模型（LLMs）在教育领域的应用能力。通过提供详细的考试题目、答案及其相关注释，如题目类型、难度级别、知识概念和答案解释，CJEval使研究者能够对LLMs在教育任务中的表现进行全面分析。具体任务包括知识概念标记、题目难度预测、问答和题目生成，这些任务覆盖了初中教育的多个学科，为LLMs在教育评估中的应用提供了坚实的基础。

解决学术问题

CJEval数据集解决了当前学术研究中对LLMs在教育领域应用评估的不足问题。传统基准测试主要集中在单一类型的选择题上，无法全面反映模型在教育评估中的综合能力。CJEval通过整合多种任务和多维度的注释信息，提供了一个更全面和稳健的评估框架，有助于识别LLMs在教育应用中的潜力和局限性，推动教育技术的发展。

实际应用

CJEval数据集在实际应用中主要用于开发和优化智能教育系统。通过利用数据集中的详细注释，教育技术开发者可以训练和微调LLMs，以提高其在知识概念标记、题目难度预测、问答和题目生成等任务中的表现。这些应用不仅能够提升在线教育平台的智能化水平，还能为学生提供个性化的学习体验和精准的学习评估，从而提高教育质量和效率。

数据集最近研究