five

CJEval|教育评估数据集|大型语言模型数据集

收藏
arXiv2024-09-25 更新2024-09-26 收录
教育评估
大型语言模型
下载链接:
https://github.com/SmileWHC/CJEval
下载链接
链接失效反馈
资源简介:
CJEval是一个基于中国初中考试数据的新型评估基准,由腾讯优图实验室和北京大学联合开发。该数据集包含26,136个样本,涵盖四个应用级别的教学任务和十个学科。数据集不仅包括问题和答案,还详细标注了问题类型、难度级别、知识概念和答案解释。创建过程中,数据集通过真实考试题目收集,并由教育专家手动标注。CJEval旨在全面评估大型语言模型在教育领域的应用潜力,解决现有基准在教育应用中的局限性。
提供机构:
腾讯优图实验室, 北京大学
创建时间:
2024-09-25
原始信息汇总

CJEval: 评估大型语言模型使用中国初中考试数据的综合基准

简介

CJEval 是一个基于中国初中考试评估的综合基准。它包含 26,136 个样本,涵盖四个应用级别的教学任务,涉及十个学科。这些样本不仅包括问题和答案,还包括详细的注释,如问题类型、难度级别、知识概念和答案解释。

数据集统计

表: CJEval 的整体统计数据。

SCQs MRQs TFQs FBQs AQs
No.S 10 5 5 9 7
No.Q 7,701 2,569 3,729 6,193 5,944
Avg.Q Tokens 112.8 211.7 102.1 107.1 376.9
Avg.A Tokens 1 2.65 1.35 22.6 73.3
Avg.AE Tokens 232.8 313.9 211.8 241.6 372.7
Avg.No.KC 2.4 2.7 2.7 2.4 2.6

S: 学科。Q: 问题。KC: 知识概念。AE: 答案解释。No.S 表示在相应问题类型下涵盖的学科数量。Avg.No.KC 表示每个问题关联的平均知识概念数量。数据集分割方面,训练集、验证集、测试集和总集分别包含 20,820、2,106、3,210 和 26,136 个问题。

展示: json {"subject": "初中生物", "ques_type": "单选题", "ques_difficulty": "一般", "ques_content": "在下列生物中,哪个具有完整的细胞核? ( ) 选项: A. 酵母菌 B. 肝炎病毒 C. 乳酸菌 D. 大肠杆菌", "ques_answer": ["A"], "ques_analyze": "此题考查不同生物的细胞结构特点。 A. 酵母菌是属于真菌类的生物,真菌细胞具有成形的细胞核,因此选项A正确。 B. 肝炎病毒没有细胞结构,是非细胞生物,不具备成形的细胞核,所以选项B错误。 C. 乳酸菌属于细菌类,细菌细胞没有成形的细胞核,所以选项C错误。 D. 大肠杆菌也是细菌类,同样无成形细胞核,因此选项D错误。 通过上述分析,确定选项A为正确答案。 理解病毒、细菌和真菌在细胞结构上的区别是解答此类题目的关键。", "ques_knowledges": ["细菌和真菌的区别", "病毒的结构特征"]}

基准测试

表: 在零样本设置下,四个基于问题的任务的总体结果总结如下。

<img src="https://github.com/SmileWHC/CJEval/blob/main/src/overall_results.png" width="860" />

伦理

CJEval 源自实际的初中考试题目,经过精心重写和严格审查。CJEval 数据集仅用于学术和研究目的。严禁任何商业用途或偏离这些目的的滥用。

遵守这些指南对于维护数据集的完整性和确保道德使用至关重要。

引用

CJEval: 评估大型语言模型使用中国初中考试数据的综合基准

https://arxiv.org/abs/2409.16202

如果您发现我们的项目对您的研究有帮助,请考虑引用它:

@article{zhang2024cjeval, title={CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data}, author={Qian-Wen Zhang and Haochen Wang and Fang Li and Siyu An and Lingfeng Qiao and Liangcai Gao and Di Yin and Xing Sun}, year={2024}, eprint={2409.16202}, archivePrefix={arXiv}, primaryClass={cs.AI}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CJEval数据集的构建基于中国初中考试的真实题目,涵盖了四个应用级别的教学任务,跨越十个学科。该数据集包含了26,136个样本,不仅包括问题和答案,还详细标注了问题类型、难度级别、知识概念及答案解释。通过整合多样化的任务和数据注释,CJEval旨在创建一个更全面和稳健的教育大语言模型评估参考数据集。
使用方法
CJEval数据集可用于多种教育任务的评估和模型微调。用户可以通过该数据集进行知识概念标注、问题难度预测、问题回答和问题生成等任务的训练和测试。具体使用方法包括:首先,根据任务需求选择相应的数据子集;其次,利用数据集中的详细注释信息进行模型训练;最后,通过对比模型在测试集上的表现,评估其在教育领域的应用潜力。
背景与挑战
背景概述
随着在线教育平台的兴起,教育资源的传播方式发生了显著变化,大型语言模型(LLMs)如ChatGPT和Llama的出现进一步提升了这些平台的智能化水平。然而,现有的学术基准在实际行业应用中提供的指导有限,特别是在教育应用中,不仅需要简单的测试问题回答。为了填补这一空白,我们引入了CJEval,这是一个基于中国初中考试评估的基准。CJEval包含26,136个样本,涵盖四个应用级别的教学任务,涉及十个科目。这些样本不仅包括问题和答案,还包括问题类型、难度级别、知识概念和答案解释等详细注释。通过利用这一基准,我们评估了LLMs在教育领域的潜在应用,并对它们在各种教学任务上的表现进行了全面分析。
当前挑战
CJEval面临的挑战主要集中在两个方面:一是解决教育领域中复杂问题的能力,包括理解学生的具体问题并应用专业教学知识提供有效解决方案;二是数据集构建过程中遇到的挑战,如确保数据集的多样性和全面性,以及在注释过程中保持高质量和一致性。此外,现有的基准主要集中在多选题上,这可能限制了模型在更复杂教育评估中的全面能力。CJEval通过整合多样化的任务和多维度的注释信息,旨在创建一个更全面和强大的教育LLMs评估参考数据集。
常用场景
经典使用场景
CJEval数据集的经典使用场景主要集中在评估大型语言模型(LLMs)在教育领域的应用能力。通过提供详细的考试题目、答案及其相关注释,如题目类型、难度级别、知识概念和答案解释,CJEval使研究者能够对LLMs在教育任务中的表现进行全面分析。具体任务包括知识概念标记、题目难度预测、问答和题目生成,这些任务覆盖了初中教育的多个学科,为LLMs在教育评估中的应用提供了坚实的基础。
解决学术问题
CJEval数据集解决了当前学术研究中对LLMs在教育领域应用评估的不足问题。传统基准测试主要集中在单一类型的选择题上,无法全面反映模型在教育评估中的综合能力。CJEval通过整合多种任务和多维度的注释信息,提供了一个更全面和稳健的评估框架,有助于识别LLMs在教育应用中的潜力和局限性,推动教育技术的发展。
实际应用
CJEval数据集在实际应用中主要用于开发和优化智能教育系统。通过利用数据集中的详细注释,教育技术开发者可以训练和微调LLMs,以提高其在知识概念标记、题目难度预测、问答和题目生成等任务中的表现。这些应用不仅能够提升在线教育平台的智能化水平,还能为学生提供个性化的学习体验和精准的学习评估,从而提高教育质量和效率。
数据集最近研究
最新研究方向
在教育领域,CJEval数据集的最新研究方向主要集中在利用大型语言模型(LLMs)进行教育评估和个性化学习系统的开发。通过整合中国初中考试数据,CJEval不仅提供了丰富的题型和难度级别,还包含了详细的知识概念和答案解释,从而为LLMs在教育应用中的性能评估提供了全面的基准。研究者们通过微调LLMs,探索其在知识概念标记、问题难度预测、问题回答和问题生成等任务中的表现,旨在提升教育平台的智能化水平,实现更精准的学习评估和个性化教学。
相关研究论文
  • 1
    CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data腾讯优图实验室, 北京大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题