five

CJEval|教育评估数据集|大型语言模型数据集

收藏
arXiv2024-09-25 更新2024-09-26 收录
教育评估
大型语言模型
下载链接:
https://github.com/SmileWHC/CJEval
下载链接
链接失效反馈
资源简介:
CJEval是一个基于中国初中考试数据的新型评估基准,由腾讯优图实验室和北京大学联合开发。该数据集包含26,136个样本,涵盖四个应用级别的教学任务和十个学科。数据集不仅包括问题和答案,还详细标注了问题类型、难度级别、知识概念和答案解释。创建过程中,数据集通过真实考试题目收集,并由教育专家手动标注。CJEval旨在全面评估大型语言模型在教育领域的应用潜力,解决现有基准在教育应用中的局限性。
提供机构:
腾讯优图实验室, 北京大学
创建时间:
2024-09-25
原始信息汇总

CJEval: 评估大型语言模型使用中国初中考试数据的综合基准

简介

CJEval 是一个基于中国初中考试评估的综合基准。它包含 26,136 个样本,涵盖四个应用级别的教学任务,涉及十个学科。这些样本不仅包括问题和答案,还包括详细的注释,如问题类型、难度级别、知识概念和答案解释。

数据集统计

表: CJEval 的整体统计数据。

SCQs MRQs TFQs FBQs AQs
No.S 10 5 5 9 7
No.Q 7,701 2,569 3,729 6,193 5,944
Avg.Q Tokens 112.8 211.7 102.1 107.1 376.9
Avg.A Tokens 1 2.65 1.35 22.6 73.3
Avg.AE Tokens 232.8 313.9 211.8 241.6 372.7
Avg.No.KC 2.4 2.7 2.7 2.4 2.6

S: 学科。Q: 问题。KC: 知识概念。AE: 答案解释。No.S 表示在相应问题类型下涵盖的学科数量。Avg.No.KC 表示每个问题关联的平均知识概念数量。数据集分割方面,训练集、验证集、测试集和总集分别包含 20,820、2,106、3,210 和 26,136 个问题。

展示: json {"subject": "初中生物", "ques_type": "单选题", "ques_difficulty": "一般", "ques_content": "在下列生物中,哪个具有完整的细胞核? ( ) 选项: A. 酵母菌 B. 肝炎病毒 C. 乳酸菌 D. 大肠杆菌", "ques_answer": ["A"], "ques_analyze": "此题考查不同生物的细胞结构特点。 A. 酵母菌是属于真菌类的生物,真菌细胞具有成形的细胞核,因此选项A正确。 B. 肝炎病毒没有细胞结构,是非细胞生物,不具备成形的细胞核,所以选项B错误。 C. 乳酸菌属于细菌类,细菌细胞没有成形的细胞核,所以选项C错误。 D. 大肠杆菌也是细菌类,同样无成形细胞核,因此选项D错误。 通过上述分析,确定选项A为正确答案。 理解病毒、细菌和真菌在细胞结构上的区别是解答此类题目的关键。", "ques_knowledges": ["细菌和真菌的区别", "病毒的结构特征"]}

基准测试

表: 在零样本设置下,四个基于问题的任务的总体结果总结如下。

<img src="https://github.com/SmileWHC/CJEval/blob/main/src/overall_results.png" width="860" />

伦理

CJEval 源自实际的初中考试题目,经过精心重写和严格审查。CJEval 数据集仅用于学术和研究目的。严禁任何商业用途或偏离这些目的的滥用。

遵守这些指南对于维护数据集的完整性和确保道德使用至关重要。

引用

CJEval: 评估大型语言模型使用中国初中考试数据的综合基准

https://arxiv.org/abs/2409.16202

如果您发现我们的项目对您的研究有帮助,请考虑引用它:

@article{zhang2024cjeval, title={CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data}, author={Qian-Wen Zhang and Haochen Wang and Fang Li and Siyu An and Lingfeng Qiao and Liangcai Gao and Di Yin and Xing Sun}, year={2024}, eprint={2409.16202}, archivePrefix={arXiv}, primaryClass={cs.AI}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CJEval数据集的构建基于中国初中考试的真实题目,涵盖了四个应用级别的教学任务,跨越十个学科。该数据集包含了26,136个样本,不仅包括问题和答案,还详细标注了问题类型、难度级别、知识概念及答案解释。通过整合多样化的任务和数据注释,CJEval旨在创建一个更全面和稳健的教育大语言模型评估参考数据集。
使用方法
CJEval数据集可用于多种教育任务的评估和模型微调。用户可以通过该数据集进行知识概念标注、问题难度预测、问题回答和问题生成等任务的训练和测试。具体使用方法包括:首先,根据任务需求选择相应的数据子集;其次,利用数据集中的详细注释信息进行模型训练;最后,通过对比模型在测试集上的表现,评估其在教育领域的应用潜力。
背景与挑战
背景概述
随着在线教育平台的兴起,教育资源的传播方式发生了显著变化,大型语言模型(LLMs)如ChatGPT和Llama的出现进一步提升了这些平台的智能化水平。然而,现有的学术基准在实际行业应用中提供的指导有限,特别是在教育应用中,不仅需要简单的测试问题回答。为了填补这一空白,我们引入了CJEval,这是一个基于中国初中考试评估的基准。CJEval包含26,136个样本,涵盖四个应用级别的教学任务,涉及十个科目。这些样本不仅包括问题和答案,还包括问题类型、难度级别、知识概念和答案解释等详细注释。通过利用这一基准,我们评估了LLMs在教育领域的潜在应用,并对它们在各种教学任务上的表现进行了全面分析。
当前挑战
CJEval面临的挑战主要集中在两个方面:一是解决教育领域中复杂问题的能力,包括理解学生的具体问题并应用专业教学知识提供有效解决方案;二是数据集构建过程中遇到的挑战,如确保数据集的多样性和全面性,以及在注释过程中保持高质量和一致性。此外,现有的基准主要集中在多选题上,这可能限制了模型在更复杂教育评估中的全面能力。CJEval通过整合多样化的任务和多维度的注释信息,旨在创建一个更全面和强大的教育LLMs评估参考数据集。
常用场景
经典使用场景
CJEval数据集的经典使用场景主要集中在评估大型语言模型(LLMs)在教育领域的应用能力。通过提供详细的考试题目、答案及其相关注释,如题目类型、难度级别、知识概念和答案解释,CJEval使研究者能够对LLMs在教育任务中的表现进行全面分析。具体任务包括知识概念标记、题目难度预测、问答和题目生成,这些任务覆盖了初中教育的多个学科,为LLMs在教育评估中的应用提供了坚实的基础。
解决学术问题
CJEval数据集解决了当前学术研究中对LLMs在教育领域应用评估的不足问题。传统基准测试主要集中在单一类型的选择题上,无法全面反映模型在教育评估中的综合能力。CJEval通过整合多种任务和多维度的注释信息,提供了一个更全面和稳健的评估框架,有助于识别LLMs在教育应用中的潜力和局限性,推动教育技术的发展。
实际应用
CJEval数据集在实际应用中主要用于开发和优化智能教育系统。通过利用数据集中的详细注释,教育技术开发者可以训练和微调LLMs,以提高其在知识概念标记、题目难度预测、问答和题目生成等任务中的表现。这些应用不仅能够提升在线教育平台的智能化水平,还能为学生提供个性化的学习体验和精准的学习评估,从而提高教育质量和效率。
数据集最近研究
最新研究方向
在教育领域,CJEval数据集的最新研究方向主要集中在利用大型语言模型(LLMs)进行教育评估和个性化学习系统的开发。通过整合中国初中考试数据,CJEval不仅提供了丰富的题型和难度级别,还包含了详细的知识概念和答案解释,从而为LLMs在教育应用中的性能评估提供了全面的基准。研究者们通过微调LLMs,探索其在知识概念标记、问题难度预测、问题回答和问题生成等任务中的表现,旨在提升教育平台的智能化水平,实现更精准的学习评估和个性化教学。
相关研究论文
  • 1
    CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data腾讯优图实验室, 北京大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

ALFA

ALFA数据集由卡内基梅隆大学机器人学院创建,专注于固定翼无人机的控制表面故障和异常检测。数据集包含47次自主飞行中的故障场景,涵盖了发动机、方向舵、副翼和升降舵等多种故障类型,总飞行时间为66分钟正常飞行和13分钟故障后飞行。数据集的创建涉及对飞行器的硬件和软件进行定制修改,以模拟各种故障情况。该数据集主要用于无人机故障检测和隔离(FDI)以及异常检测(AD)研究,旨在提高自主飞行操作的安全性。

arXiv 收录