CJEval|教育评估数据集|大型语言模型数据集
收藏CJEval: 评估大型语言模型使用中国初中考试数据的综合基准
简介
CJEval 是一个基于中国初中考试评估的综合基准。它包含 26,136 个样本,涵盖四个应用级别的教学任务,涉及十个学科。这些样本不仅包括问题和答案,还包括详细的注释,如问题类型、难度级别、知识概念和答案解释。
数据集统计
表: CJEval 的整体统计数据。
| SCQs | MRQs | TFQs | FBQs | AQs | |
|---|---|---|---|---|---|
| No.S | 10 | 5 | 5 | 9 | 7 |
| No.Q | 7,701 | 2,569 | 3,729 | 6,193 | 5,944 |
| Avg.Q Tokens | 112.8 | 211.7 | 102.1 | 107.1 | 376.9 |
| Avg.A Tokens | 1 | 2.65 | 1.35 | 22.6 | 73.3 |
| Avg.AE Tokens | 232.8 | 313.9 | 211.8 | 241.6 | 372.7 |
| Avg.No.KC | 2.4 | 2.7 | 2.7 | 2.4 | 2.6 |
S: 学科。Q: 问题。KC: 知识概念。AE: 答案解释。No.S 表示在相应问题类型下涵盖的学科数量。Avg.No.KC 表示每个问题关联的平均知识概念数量。数据集分割方面,训练集、验证集、测试集和总集分别包含 20,820、2,106、3,210 和 26,136 个问题。
展示: json {"subject": "初中生物", "ques_type": "单选题", "ques_difficulty": "一般", "ques_content": "在下列生物中,哪个具有完整的细胞核? ( ) 选项: A. 酵母菌 B. 肝炎病毒 C. 乳酸菌 D. 大肠杆菌", "ques_answer": ["A"], "ques_analyze": "此题考查不同生物的细胞结构特点。 A. 酵母菌是属于真菌类的生物,真菌细胞具有成形的细胞核,因此选项A正确。 B. 肝炎病毒没有细胞结构,是非细胞生物,不具备成形的细胞核,所以选项B错误。 C. 乳酸菌属于细菌类,细菌细胞没有成形的细胞核,所以选项C错误。 D. 大肠杆菌也是细菌类,同样无成形细胞核,因此选项D错误。 通过上述分析,确定选项A为正确答案。 理解病毒、细菌和真菌在细胞结构上的区别是解答此类题目的关键。", "ques_knowledges": ["细菌和真菌的区别", "病毒的结构特征"]}
基准测试
表: 在零样本设置下,四个基于问题的任务的总体结果总结如下。
<img src="https://github.com/SmileWHC/CJEval/blob/main/src/overall_results.png" width="860" />
伦理
CJEval 源自实际的初中考试题目,经过精心重写和严格审查。CJEval 数据集仅用于学术和研究目的。严禁任何商业用途或偏离这些目的的滥用。
遵守这些指南对于维护数据集的完整性和确保道德使用至关重要。
引用
CJEval: 评估大型语言模型使用中国初中考试数据的综合基准
https://arxiv.org/abs/2409.16202
如果您发现我们的项目对您的研究有帮助,请考虑引用它:
@article{zhang2024cjeval, title={CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data}, author={Qian-Wen Zhang and Haochen Wang and Fang Li and Siyu An and Lingfeng Qiao and Liangcai Gao and Di Yin and Xing Sun}, year={2024}, eprint={2409.16202}, archivePrefix={arXiv}, primaryClass={cs.AI}, }

- 1CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data腾讯优图实验室, 北京大学 · 2024年



