RUCAIBox/gaokao-bench
收藏Hugging Face2024-03-11 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/RUCAIBox/gaokao-bench
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
configs:
- config_name: 2010-2013_English_MCQs
data_files:
- split: test
path: "test/2010-2013_English_MCQs.jsonl"
- config_name: 2010-2022_Biology_MCQs
data_files:
- split: test
path: "test/2010-2022_Biology_MCQs.jsonl"
- config_name: 2010-2022_Chemistry_MCQs
data_files:
- split: test
path: "test/2010-2022_Chemistry_MCQs.jsonl"
- config_name: 2010-2022_Chinese_Lang_and_Usage_MCQs
data_files:
- split: test
path: "test/2010-2022_Chinese_Lang_and_Usage_MCQs.jsonl"
- config_name: 2010-2022_Chinese_Modern_Lit
data_files:
- split: test
path: "test/2010-2022_Chinese_Modern_Lit.jsonl"
- config_name: 2010-2022_English_Fill_in_Blanks
data_files:
- split: test
path: "test/2010-2022_English_Fill_in_Blanks.jsonl"
- config_name: 2010-2022_English_Reading_Comp
data_files:
- split: test
path: "test/2010-2022_English_Reading_Comp.jsonl"
- config_name: 2010-2022_Geography_MCQs
data_files:
- split: test
path: "test/2010-2022_Geography_MCQs.jsonl"
- config_name: 2010-2022_History_MCQs
data_files:
- split: test
path: "test/2010-2022_History_MCQs.jsonl"
- config_name: 2010-2022_Math_II_MCQs
data_files:
- split: test
path: "test/2010-2022_Math_II_MCQs.jsonl"
- config_name: 2010-2022_Math_I_MCQs
data_files:
- split: test
path: "test/2010-2022_Math_I_MCQs.jsonl"
- config_name: 2010-2022_Physics_MCQs
data_files:
- split: test
path: "test/2010-2022_Physics_MCQs.jsonl"
- config_name: 2010-2022_Political_Science_MCQs
data_files:
- split: test
path: "test/2010-2022_Political_Science_MCQs.jsonl"
- config_name: 2012-2022_English_Cloze_Test
data_files:
- split: test
path: "test/2012-2022_English_Cloze_Test.jsonl"
---
许可证:Apache 2.0
配置项:
- 配置名称:2010-2013年英语多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2013_English_MCQs.jsonl"
- 配置名称:2010-2022年生物学多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_Biology_MCQs.jsonl"
- 配置名称:2010-2022年化学多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_Chemistry_MCQs.jsonl"
- 配置名称:2010-2022年汉语语言与应用多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_Chinese_Lang_and_Usage_MCQs.jsonl"
- 配置名称:2010-2022年中国现代文学
数据文件:
- 划分:测试集
路径:"test/2010-2022_Chinese_Modern_Lit.jsonl"
- 配置名称:2010-2022年英语填空题
数据文件:
- 划分:测试集
路径:"test/2010-2022_English_Fill_in_Blanks.jsonl"
- 配置名称:2010-2022年英语阅读理解
数据文件:
- 划分:测试集
路径:"test/2010-2022_English_Reading_Comp.jsonl"
- 配置名称:2010-2022年地理学多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_Geography_MCQs.jsonl"
- 配置名称:2010-2022年历史学多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_History_MCQs.jsonl"
- 配置名称:2010-2022年数学二多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_Math_II_MCQs.jsonl"
- 配置名称:2010-2022年数学一多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_Math_I_MCQs.jsonl"
- 配置名称:2010-2022年物理学多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_Physics_MCQs.jsonl"
- 配置名称:2010-2022年政治学多项选择题(Multiple Choice Questions, MCQs)
数据文件:
- 划分:测试集
路径:"test/2010-2022_Political_Science_MCQs.jsonl"
- 配置名称:2012-2022年英语完形填空(Cloze Test)
数据文件:
- 划分:测试集
路径:"test/2012-2022_English_Cloze_Test.jsonl"
提供机构:
RUCAIBox
原始信息汇总
数据集概述
数据集配置
-
2010-2013_English_MCQs
- 文件路径:
test/2010-2013_English_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Biology_MCQs
- 文件路径:
test/2010-2022_Biology_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Chemistry_MCQs
- 文件路径:
test/2010-2022_Chemistry_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Chinese_Lang_and_Usage_MCQs
- 文件路径:
test/2010-2022_Chinese_Lang_and_Usage_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Chinese_Modern_Lit
- 文件路径:
test/2010-2022_Chinese_Modern_Lit.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_English_Fill_in_Blanks
- 文件路径:
test/2010-2022_English_Fill_in_Blanks.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_English_Reading_Comp
- 文件路径:
test/2010-2022_English_Reading_Comp.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Geography_MCQs
- 文件路径:
test/2010-2022_Geography_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_History_MCQs
- 文件路径:
test/2010-2022_History_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Math_II_MCQs
- 文件路径:
test/2010-2022_Math_II_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Math_I_MCQs
- 文件路径:
test/2010-2022_Math_I_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Physics_MCQs
- 文件路径:
test/2010-2022_Physics_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2010-2022_Political_Science_MCQs
- 文件路径:
test/2010-2022_Political_Science_MCQs.jsonl - 分割类型: 测试集
- 文件路径:
-
2012-2022_English_Cloze_Test
- 文件路径:
test/2012-2022_English_Cloze_Test.jsonl - 分割类型: 测试集
- 文件路径:
许可证
- 许可证类型: Apache-2.0
搜集汇总
数据集介绍

构建方式
RUCAIBox/gaokao-bench数据集的构建基于中国高考的多学科试题,涵盖了从2010年至2022年的广泛时间跨度。该数据集精心挑选了多个学科的选择题和填空题,包括英语、生物、化学、语文、地理、历史、数学、物理和政治科学等。每个学科的试题均以JSONL格式存储,便于数据的高效处理和分析。通过系统化的整理和分类,确保了数据集的多样性和代表性,为教育研究和智能评估提供了坚实的基础。
特点
该数据集的显著特点在于其广泛的时间覆盖和多学科的全面性。不仅包含了多个学科的选择题,还特别收录了英语的填空题和阅读理解题,丰富了题型多样性。此外,数据集的结构化存储方式使得数据检索和处理更为便捷,适合用于开发和测试教育领域的智能评估系统。
使用方法
使用RUCAIBox/gaokao-bench数据集时,用户可以根据需要选择特定的学科和时间段进行数据加载。数据以JSONL格式提供,便于直接导入到各种数据处理工具中。该数据集适用于开发和验证基于高考题型的智能评估模型,如自动评分系统、题型分析工具等。通过合理的数据分割和配置,用户可以有效地进行模型训练和性能评估。
背景与挑战
背景概述
RUCAIBox/gaokao-bench数据集由RUCAIBox团队创建,专注于中国高考的多项选择题(MCQs)和填空题数据。该数据集涵盖了2010年至2022年间多个学科的考试题目,包括英语、生物、化学、地理、历史、数学、物理和政治科学等。其核心研究问题在于通过大规模标准化考试题目,评估和提升自然语言处理模型在教育评估领域的应用能力。该数据集的发布对于推动教育技术的发展具有重要意义,尤其是在智能教育评估和个性化学习系统方面。
当前挑战
该数据集面临的挑战主要集中在数据多样性和复杂性上。首先,高考题目涉及多个学科,要求模型具备跨学科的知识理解和应用能力。其次,题目的多样性,包括多项选择题和填空题,增加了模型处理的复杂性。此外,构建过程中需要确保数据的准确性和完整性,避免题目解析错误或数据缺失。这些挑战要求研究者在数据预处理、模型设计和评估方法上进行深入探索,以实现高效且准确的教育评估。
常用场景
经典使用场景
在教育评估领域,RUCAIBox/gaokao-bench数据集以其丰富的多学科试题资源,成为评估和提升学生知识掌握程度的经典工具。该数据集涵盖了从2010年至2022年的高考多选题,包括英语、生物、化学、地理等多个学科,特别适用于开发和验证智能教育系统中的自动评分和学习建议功能。通过分析这些试题,研究者和开发者能够构建出能够准确评估学生知识水平并提供个性化学习路径的智能系统。
衍生相关工作
基于RUCAIBox/gaokao-bench数据集,研究者们开展了多项经典工作,包括开发智能评分系统、设计个性化学习路径算法以及构建跨学科知识图谱。这些工作不仅推动了教育技术的发展,还为教育评估提供了新的视角和方法。例如,有研究利用该数据集训练的模型,成功实现了对学生知识掌握程度的精准评估,并据此提出了改进教学策略的建议,极大地提升了教育评估的科学性和有效性。
数据集最近研究
最新研究方向
在教育评估与智能教育领域,RUCAIBox/gaokao-bench数据集的最新研究方向主要聚焦于多学科知识问答系统的构建与优化。该数据集涵盖了从2010年至2022年的高考多科目选择题,包括英语、生物、化学、地理等多个学科,为研究者提供了丰富的多模态数据资源。当前,研究者正利用这一数据集开发更为精准的自动评分系统,以提升教育评估的客观性与效率。此外,该数据集还推动了跨学科知识融合与智能教育技术的研究,特别是在个性化学习路径推荐和智能辅导系统方面,展现了广阔的应用前景。
以上内容由遇见数据集搜集并总结生成



