five

CJEval|教育评估数据集|大型语言模型数据集

收藏
arXiv2024-09-25 更新2024-09-26 收录
教育评估
大型语言模型
下载链接:
https://github.com/SmileWHC/CJEval
下载链接
链接失效反馈
资源简介:
CJEval是一个基于中国初中考试数据的新型评估基准,由腾讯优图实验室和北京大学联合开发。该数据集包含26,136个样本,涵盖四个应用级别的教学任务和十个学科。数据集不仅包括问题和答案,还详细标注了问题类型、难度级别、知识概念和答案解释。创建过程中,数据集通过真实考试题目收集,并由教育专家手动标注。CJEval旨在全面评估大型语言模型在教育领域的应用潜力,解决现有基准在教育应用中的局限性。
提供机构:
腾讯优图实验室, 北京大学
创建时间:
2024-09-25
原始信息汇总

CJEval: 评估大型语言模型使用中国初中考试数据的综合基准

简介

CJEval 是一个基于中国初中考试评估的综合基准。它包含 26,136 个样本,涵盖四个应用级别的教学任务,涉及十个学科。这些样本不仅包括问题和答案,还包括详细的注释,如问题类型、难度级别、知识概念和答案解释。

数据集统计

表: CJEval 的整体统计数据。

SCQs MRQs TFQs FBQs AQs
No.S 10 5 5 9 7
No.Q 7,701 2,569 3,729 6,193 5,944
Avg.Q Tokens 112.8 211.7 102.1 107.1 376.9
Avg.A Tokens 1 2.65 1.35 22.6 73.3
Avg.AE Tokens 232.8 313.9 211.8 241.6 372.7
Avg.No.KC 2.4 2.7 2.7 2.4 2.6

S: 学科。Q: 问题。KC: 知识概念。AE: 答案解释。No.S 表示在相应问题类型下涵盖的学科数量。Avg.No.KC 表示每个问题关联的平均知识概念数量。数据集分割方面,训练集、验证集、测试集和总集分别包含 20,820、2,106、3,210 和 26,136 个问题。

展示: json {"subject": "初中生物", "ques_type": "单选题", "ques_difficulty": "一般", "ques_content": "在下列生物中,哪个具有完整的细胞核? ( ) 选项: A. 酵母菌 B. 肝炎病毒 C. 乳酸菌 D. 大肠杆菌", "ques_answer": ["A"], "ques_analyze": "此题考查不同生物的细胞结构特点。 A. 酵母菌是属于真菌类的生物,真菌细胞具有成形的细胞核,因此选项A正确。 B. 肝炎病毒没有细胞结构,是非细胞生物,不具备成形的细胞核,所以选项B错误。 C. 乳酸菌属于细菌类,细菌细胞没有成形的细胞核,所以选项C错误。 D. 大肠杆菌也是细菌类,同样无成形细胞核,因此选项D错误。 通过上述分析,确定选项A为正确答案。 理解病毒、细菌和真菌在细胞结构上的区别是解答此类题目的关键。", "ques_knowledges": ["细菌和真菌的区别", "病毒的结构特征"]}

基准测试

表: 在零样本设置下,四个基于问题的任务的总体结果总结如下。

<img src="https://github.com/SmileWHC/CJEval/blob/main/src/overall_results.png" width="860" />

伦理

CJEval 源自实际的初中考试题目,经过精心重写和严格审查。CJEval 数据集仅用于学术和研究目的。严禁任何商业用途或偏离这些目的的滥用。

遵守这些指南对于维护数据集的完整性和确保道德使用至关重要。

引用

CJEval: 评估大型语言模型使用中国初中考试数据的综合基准

https://arxiv.org/abs/2409.16202

如果您发现我们的项目对您的研究有帮助,请考虑引用它:

@article{zhang2024cjeval, title={CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data}, author={Qian-Wen Zhang and Haochen Wang and Fang Li and Siyu An and Lingfeng Qiao and Liangcai Gao and Di Yin and Xing Sun}, year={2024}, eprint={2409.16202}, archivePrefix={arXiv}, primaryClass={cs.AI}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CJEval数据集的构建基于中国初中考试的真实题目,涵盖了四个应用级别的教学任务,跨越十个学科。该数据集包含了26,136个样本,不仅包括问题和答案,还详细标注了问题类型、难度级别、知识概念及答案解释。通过整合多样化的任务和数据注释,CJEval旨在创建一个更全面和稳健的教育大语言模型评估参考数据集。
使用方法
CJEval数据集可用于多种教育任务的评估和模型微调。用户可以通过该数据集进行知识概念标注、问题难度预测、问题回答和问题生成等任务的训练和测试。具体使用方法包括:首先,根据任务需求选择相应的数据子集;其次,利用数据集中的详细注释信息进行模型训练;最后,通过对比模型在测试集上的表现,评估其在教育领域的应用潜力。
背景与挑战
背景概述
随着在线教育平台的兴起,教育资源的传播方式发生了显著变化,大型语言模型(LLMs)如ChatGPT和Llama的出现进一步提升了这些平台的智能化水平。然而,现有的学术基准在实际行业应用中提供的指导有限,特别是在教育应用中,不仅需要简单的测试问题回答。为了填补这一空白,我们引入了CJEval,这是一个基于中国初中考试评估的基准。CJEval包含26,136个样本,涵盖四个应用级别的教学任务,涉及十个科目。这些样本不仅包括问题和答案,还包括问题类型、难度级别、知识概念和答案解释等详细注释。通过利用这一基准,我们评估了LLMs在教育领域的潜在应用,并对它们在各种教学任务上的表现进行了全面分析。
当前挑战
CJEval面临的挑战主要集中在两个方面:一是解决教育领域中复杂问题的能力,包括理解学生的具体问题并应用专业教学知识提供有效解决方案;二是数据集构建过程中遇到的挑战,如确保数据集的多样性和全面性,以及在注释过程中保持高质量和一致性。此外,现有的基准主要集中在多选题上,这可能限制了模型在更复杂教育评估中的全面能力。CJEval通过整合多样化的任务和多维度的注释信息,旨在创建一个更全面和强大的教育LLMs评估参考数据集。
常用场景
经典使用场景
CJEval数据集的经典使用场景主要集中在评估大型语言模型(LLMs)在教育领域的应用能力。通过提供详细的考试题目、答案及其相关注释,如题目类型、难度级别、知识概念和答案解释,CJEval使研究者能够对LLMs在教育任务中的表现进行全面分析。具体任务包括知识概念标记、题目难度预测、问答和题目生成,这些任务覆盖了初中教育的多个学科,为LLMs在教育评估中的应用提供了坚实的基础。
解决学术问题
CJEval数据集解决了当前学术研究中对LLMs在教育领域应用评估的不足问题。传统基准测试主要集中在单一类型的选择题上,无法全面反映模型在教育评估中的综合能力。CJEval通过整合多种任务和多维度的注释信息,提供了一个更全面和稳健的评估框架,有助于识别LLMs在教育应用中的潜力和局限性,推动教育技术的发展。
实际应用
CJEval数据集在实际应用中主要用于开发和优化智能教育系统。通过利用数据集中的详细注释,教育技术开发者可以训练和微调LLMs,以提高其在知识概念标记、题目难度预测、问答和题目生成等任务中的表现。这些应用不仅能够提升在线教育平台的智能化水平,还能为学生提供个性化的学习体验和精准的学习评估,从而提高教育质量和效率。
数据集最近研究
最新研究方向
在教育领域,CJEval数据集的最新研究方向主要集中在利用大型语言模型(LLMs)进行教育评估和个性化学习系统的开发。通过整合中国初中考试数据,CJEval不仅提供了丰富的题型和难度级别,还包含了详细的知识概念和答案解释,从而为LLMs在教育应用中的性能评估提供了全面的基准。研究者们通过微调LLMs,探索其在知识概念标记、问题难度预测、问题回答和问题生成等任务中的表现,旨在提升教育平台的智能化水平,实现更精准的学习评估和个性化教学。
相关研究论文
  • 1
    CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data腾讯优图实验室, 北京大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

giovannidemuri__sharegpt-ex50000-seed5_llama8b-er-v573-seed2-hx_256_ngt0.7_tp0.9

该数据集包含了用户与助手之间的对话,其中包含两个字段:用户发言和助手回应,均为字符串类型。训练集大小为38646852字节,共有44096条对话记录。

huggingface 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

LEVIR-CD

LEVIR-CD 是一个新的大规模遥感建筑变化检测数据集。引入的数据集将成为评估变化检测 (CD) 算法的新基准,尤其是基于深度学习的算法。 LEVIR-CD 由 637 个非常高分辨率(VHR,0.5m/像素)Google Earth (GE) 图像块对组成,大小为 1024 × 1024 像素。这些时间跨度为 5 到 14 年的双时相图像具有显着的土地利用变化,尤其是建筑增长。 LEVIR-CD涵盖别墅住宅、高层公寓、小型车库和大型仓库等各类建筑。在这里,我们关注与建筑相关的变化,包括建筑增长(从土壤/草地/硬化地面或在建建筑到新建筑区域的变化)和建筑衰退。这些双时相图像由遥感图像解释专家使用二进制标签(1 表示变化,0 表示不变)进行注释。我们数据集中的每个样本都由一个注释器进行注释,然后由另一个注释器进行双重检查以产生高质量的注释。完整注释的 LEVIR-CD 总共包含 31,333 个单独的变更构建实例。

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录