CJEval|教育评估数据集|大型语言模型数据集
收藏CJEval: 评估大型语言模型使用中国初中考试数据的综合基准
简介
CJEval 是一个基于中国初中考试评估的综合基准。它包含 26,136 个样本,涵盖四个应用级别的教学任务,涉及十个学科。这些样本不仅包括问题和答案,还包括详细的注释,如问题类型、难度级别、知识概念和答案解释。
数据集统计
表: CJEval 的整体统计数据。
SCQs | MRQs | TFQs | FBQs | AQs | |
---|---|---|---|---|---|
No.S | 10 | 5 | 5 | 9 | 7 |
No.Q | 7,701 | 2,569 | 3,729 | 6,193 | 5,944 |
Avg.Q Tokens | 112.8 | 211.7 | 102.1 | 107.1 | 376.9 |
Avg.A Tokens | 1 | 2.65 | 1.35 | 22.6 | 73.3 |
Avg.AE Tokens | 232.8 | 313.9 | 211.8 | 241.6 | 372.7 |
Avg.No.KC | 2.4 | 2.7 | 2.7 | 2.4 | 2.6 |
S: 学科。Q: 问题。KC: 知识概念。AE: 答案解释。No.S 表示在相应问题类型下涵盖的学科数量。Avg.No.KC 表示每个问题关联的平均知识概念数量。数据集分割方面,训练集、验证集、测试集和总集分别包含 20,820、2,106、3,210 和 26,136 个问题。
展示: json {"subject": "初中生物", "ques_type": "单选题", "ques_difficulty": "一般", "ques_content": "在下列生物中,哪个具有完整的细胞核? ( ) 选项: A. 酵母菌 B. 肝炎病毒 C. 乳酸菌 D. 大肠杆菌", "ques_answer": ["A"], "ques_analyze": "此题考查不同生物的细胞结构特点。 A. 酵母菌是属于真菌类的生物,真菌细胞具有成形的细胞核,因此选项A正确。 B. 肝炎病毒没有细胞结构,是非细胞生物,不具备成形的细胞核,所以选项B错误。 C. 乳酸菌属于细菌类,细菌细胞没有成形的细胞核,所以选项C错误。 D. 大肠杆菌也是细菌类,同样无成形细胞核,因此选项D错误。 通过上述分析,确定选项A为正确答案。 理解病毒、细菌和真菌在细胞结构上的区别是解答此类题目的关键。", "ques_knowledges": ["细菌和真菌的区别", "病毒的结构特征"]}
基准测试
表: 在零样本设置下,四个基于问题的任务的总体结果总结如下。
<img src="https://github.com/SmileWHC/CJEval/blob/main/src/overall_results.png" width="860" />
伦理
CJEval 源自实际的初中考试题目,经过精心重写和严格审查。CJEval 数据集仅用于学术和研究目的。严禁任何商业用途或偏离这些目的的滥用。
遵守这些指南对于维护数据集的完整性和确保道德使用至关重要。
引用
CJEval: 评估大型语言模型使用中国初中考试数据的综合基准
https://arxiv.org/abs/2409.16202
如果您发现我们的项目对您的研究有帮助,请考虑引用它:
@article{zhang2024cjeval, title={CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data}, author={Qian-Wen Zhang and Haochen Wang and Fang Li and Siyu An and Lingfeng Qiao and Liangcai Gao and Di Yin and Xing Sun}, year={2024}, eprint={2409.16202}, archivePrefix={arXiv}, primaryClass={cs.AI}, }

- 1CJEval: A Benchmark for Assessing Large Language Models Using Chinese Junior High School Exam Data腾讯优图实验室, 北京大学 · 2024年
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
ALFA
ALFA数据集由卡内基梅隆大学机器人学院创建,专注于固定翼无人机的控制表面故障和异常检测。数据集包含47次自主飞行中的故障场景,涵盖了发动机、方向舵、副翼和升降舵等多种故障类型,总飞行时间为66分钟正常飞行和13分钟故障后飞行。数据集的创建涉及对飞行器的硬件和软件进行定制修改,以模拟各种故障情况。该数据集主要用于无人机故障检测和隔离(FDI)以及异常检测(AD)研究,旨在提高自主飞行操作的安全性。
arXiv 收录