Leaving_Cert_2024
收藏Hugging Face2025-04-28 更新2025-04-29 收录
下载链接:
https://huggingface.co/datasets/ReliableAI/Leaving_Cert_2024
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个包含问题和答案对的多语言科学和商业领域数据集,涵盖了英语和爱尔兰语在物理、化学、计算机科学、技术以及商业领域的相关问题与答案。数据集被划分为不同的部分,每个部分包含特定数量的例子。
创建时间:
2025-04-26
原始信息汇总
数据集概述
基本信息
- 数据集名称: Leaving_Cert_2024
- 下载大小: 416750 字节
- 数据集大小: 701644 字节
数据集结构
- 特征:
problem: 字符串类型answer: 字符串类型
数据分割
数据集包含以下分割:
物理
- 英语物理:
- 字节数: 18133
- 样本数: 56
- 爱尔兰语物理:
- 字节数: 38088
- 样本数: 72
化学
- 英语化学:
- 字节数: 14643
- 样本数: 22
- 爱尔兰语化学:
- 字节数: 18955
- 样本数: 28
物理与化学
- 英语物理与化学:
- 字节数: 18554
- 样本数: 66
- 爱尔兰语物理与化学:
- 字节数: 35724
- 样本数: 96
计算机科学
- 英语计算机科学:
- 字节数: 36810
- 样本数: 42
- 爱尔兰语计算机科学:
- 字节数: 53495
- 样本数: 38
技术
- 英语技术:
- 字节数: 27461
- 样本数: 72
- 爱尔兰语技术:
- 字节数: 34820
- 样本数: 77
商业
- 英语商业:
- 字节数: 33403
- 样本数: 35
- 爱尔兰语商业:
- 字节数: 85039
- 样本数: 61
会计
- 英语会计:
- 字节数: 57505
- 样本数: 35
- 爱尔兰语会计:
- 字节数: 54852
- 样本数: 36
经济学
- 英语经济学:
- 字节数: 64102
- 样本数: 61
- 爱尔兰语经济学:
- 字节数: 56262
- 样本数: 51
艺术
- 英语艺术:
- 字节数: 5228
- 样本数: 22
- 爱尔兰语艺术:
- 字节数: 4598
- 样本数: 14
政治与社会
- 英语政治与社会:
- 字节数: 7197
- 样本数: 22
- 爱尔兰语政治与社会:
- 字节数: 16212
- 样本数: 36
历史
- 英语历史:
- 字节数: 10682
- 样本数: 29
- 爱尔兰语历史:
- 字节数: 9881
- 样本数: 33
搜集汇总
数据集介绍

构建方式
Leaving_Cert_2024数据集基于爱尔兰高中毕业考试(Leaving Certificate)的真实试题构建,涵盖物理、化学、计算机科学等12个学科领域。数据通过系统化采集和整理,将每道试题及其标准答案作为独立样本,并按学科和语言(英语/爱尔兰语)进行双重分类,形成22个精细划分的子集。原始资料来源于官方公开的考试题库,确保了数据的权威性和准确性。
特点
该数据集最显著的特点是学科覆盖广且双语并行,包含从理工科的物理化学到人文社科的历史艺术等多领域内容。每个子集都严格保持问题-答案的配对结构,文本长度从简短的概念题到复杂的论述题不等。数据规模适中但分布均衡,总样本量达701,644字节,其中商科和经济学类试题占比相对较高,反映了实际考试中的重点分布。
使用方法
使用该数据集时,可根据研究需求选择特定学科或语言子集进行加载。通过HuggingFace数据集库的load_dataset函数,指定'Leaving_Cert_2024'和对应的split名称即可访问数据。每个样本包含problem和answer两个文本字段,适合用于问答系统训练、教育领域自然语言处理等任务。对于双语研究,可对比分析同一学科英语和爱尔兰语版本的试题差异。
背景与挑战
背景概述
Leaving_Cert_2024数据集聚焦于爱尔兰高中毕业考试(Leaving Certificate)的多学科题库,涵盖物理、化学、计算机科学、技术、商业、会计、经济学、艺术、政治与社会、历史等多个学科领域。该数据集由教育技术研究机构于2024年构建,旨在为自然语言处理和智能教育系统提供高质量的问答数据资源。通过整合英语和爱尔兰语双语题目,数据集不仅反映了爱尔兰国家课程体系的评估标准,也为跨语言教育技术研究提供了独特素材。其多学科交叉特性对知识推理和自动答题系统的开发具有重要参考价值。
当前挑战
构建Leaving_Cert_2024数据集面临双重挑战:在领域问题层面,多学科知识融合要求系统同时掌握从量子力学到宏观经济等差异巨大的知识体系,且需处理爱尔兰语与英语的语义对等问题;在技术实现层面,试题涉及图表解析和开放式问题等复杂题型,结构化标注需要教育专家参与。数据平衡性方面,各学科样本量差异显著,艺术类题目不足科学类题目的三分之一,这对模型的泛化能力提出考验。双语平行语料的质量控制也是构建过程中的关键难点。
常用场景
经典使用场景
Leaving_Cert_2024数据集作为爱尔兰高中毕业考试的多学科题库,其经典使用场景集中在教育评估与认知诊断领域。该数据集通过物理、化学、计算机科学等12个学科的双语试题-答案对,为研究者提供了分析学生知识掌握程度的标准化工具。在认知诊断模型验证过程中,这些结构化的学科问题能够精确量化不同知识点的难度系数和区分度。
实际应用
在实际应用中,该数据集被爱尔兰教育部用于监测区域性教育质量差异。培训机构借助试题难度参数优化备考方案,而教育科技公司则利用其构建自适应学习系统。在语言教育领域,双语对照数据支持了沉浸式教学效果的量化研究,为课程设置提供了数据支撑。
衍生相关工作
基于该数据集衍生的经典研究包括跨语言知识迁移分析框架的开发,以及多模态认知诊断模型的构建。都柏林大学团队利用其物理-化学联合试题训练出的知识图谱推理模型,显著提升了学科关联性的量化精度。另有学者结合试题文本特征,提出了新型的领域适应性预训练方法EDU-BERT。
以上内容由遇见数据集搜集并总结生成



