thai_exam
收藏Hugging Face2024-06-26 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/scb10x/thai_exam
下载链接
链接失效反馈官方服务:
资源简介:
ThaiExam是一个泰国知识基准测试数据集,包含泰国考试中的多项选择题。该数据集最初是为评估Typhoon(泰国LLM)而开发的。数据集包含5个部分,对应5种考试:1. ONET:泰国普通国家教育测试,针对泰国学生,包含4个科目,每题5个选项,共167题。2. IC:投资顾问考试,泰国投资专业人士的执照考试,每题4个选项,共100题。3. TGAT:泰国普通能力测试,全国高中考试,侧重批判性和逻辑思维,每题4个选项,共70题。4. TPAT-1:泰国专业能力测试1,全国高中考试,评估医学生专业技能,每题5个选项,共121题。5. A-Level:学术知识评估考试,涵盖基础学科,强调知识的实际应用,每题5个选项,共132题。
创建时间:
2024-06-25
原始信息汇总
数据集概述
数据集名称
Thai_Exam
数据集描述
ThaiExam 是一个泰国知识基准测试数据集,包含泰国考试中的多项选择题。该数据集最初是为评估 Typhoon (Thai LLM) 开发的。数据集包含 5 个部分,对应 5 个不同的考试:
- ONET: 普通国家教育测试 (ONET),针对泰国学生的考试。该数据集基于 12 年级 ONET 考试,包含 4 个科目,每个问题有 5 个选项,共计 167 个问题和选项。
- IC: 投资顾问 (IC) 考试,泰国投资专业人员的执照考试。考试题目由泰国证券交易所 (SET) 开发,每个问题有 4 个选项,共计 100 个问题和选项。
- TGAT: 泰国普通能力测试 (TGAT),泰国国家高中考试,侧重于批判性和逻辑思维能力。共计 70 个问题和答案,每个问题有 4 个选项。
- TPAT-1: 泰国专业能力测试 1 (TPAT-1),泰国国家高中考试,评估学生在医学院的专业技能要求。包含推理和医学伦理,共计 121 个问题和答案,每个问题有 5 个选项。
- A-Level: A-Level 考试,学术知识评估考试 (应用知识水平),涵盖基础学科。共计 132 个问题和答案。
数据集配置
config_name: onettrain:data/onet/onet_train.jsonltest:data/onet/onet_test.jsonl
config_name: ictrain:data/ic/ic_train.jsonltest:data/ic/ic_test.jsonl
config_name: tgattrain:data/tgat/tgat_train.jsonltest:data/tgat/tgat_test.jsonl
config_name: tpat1train:data/tpat1/tpat1_train.jsonltest:data/tpat1/tpat1_test.jsonl
config_name: a_leveltrain:data/a_level/a_level_train.jsonltest:data/a_level/a_level_test.jsonl
数据集版本
v0.1: 根据 Typhoon 技术报告 和 Typhoon-1.5 博客 的结果报告。v1.0: 当前版本 (revision: d78aef04ea3cc5095545e6951cb39e17c64e26a1)
引用信息
@article{pipatanakul2023typhoon, title={Typhoon: Thai Large Language Models}, author={Pipatanakul, Kunat and Jirabovonvisut, Phatrasek and Manakul, Potsawee and Sripaisarnmongkol, Sittipong and Patomwong, Ruangsak and Chokchainant, Pathomporn and Tharnpipitchai, Kasima}, journal={arXiv preprint arXiv:2312.13951}, year={2023} }
搜集汇总
数据集介绍

构建方式
ThaiExam数据集是一个基于泰国各类考试的泰语知识基准测试数据集,旨在评估泰语大语言模型(如Typhoon)的性能。该数据集通过收集泰国五种不同类型的考试题目构建而成,包括普通国家教育考试(ONET)、投资顾问考试(IC)、泰国通用能力测试(TGAT)、泰国专业能力测试1(TPAT-1)以及A-Level考试。每种考试的题目均以多项选择题的形式呈现,涵盖了泰语、数学、社会科学、科学等多个学科领域。数据集的构建过程严格遵循考试题目的原始格式,确保了数据的准确性和代表性。
特点
ThaiExam数据集的特点在于其多样性和广泛性。数据集涵盖了五种不同类型的泰国考试,每种考试均包含多个学科领域的题目,题目形式均为多项选择题,选项数量从4到5个不等。数据集的总题量适中,适合用于小样本学习和模型评估。此外,数据集还提供了训练集和测试集的划分,训练集包含少量示例,可用于5-shot评估,测试集则用于全面评估模型的性能。这种设计使得数据集既适合学术研究,也适合实际应用中的模型优化。
使用方法
ThaiExam数据集的使用方法较为灵活,用户可以根据需求选择不同的考试类型进行评估。每种考试的训练集包含5个示例,可用于5-shot评估,测试集则用于全面测试模型的性能。数据集提供了5-shot评估脚本,用户可以通过该脚本快速进行模型评估。此外,数据集已被集成到斯坦福大学CRFM的HELM排行榜中,用户可以通过该平台进行模型性能的对比和分析。使用该数据集时,建议引用Typhoon团队的相关文献,以支持学术研究的透明性和可重复性。
背景与挑战
背景概述
ThaiExam数据集是一个用于评估泰国知识水平的基准数据集,包含来自泰国多个考试的单项选择题。该数据集最初由Typhoon团队开发,旨在评估其泰语大语言模型(Typhoon)的性能。数据集涵盖了五个不同的考试,包括普通国家教育考试(ONET)、投资顾问考试(IC)、泰国通用能力测试(TGAT)、泰国专业能力测试1(TPAT-1)以及A-Level考试。这些考试内容涵盖了从基础教育到专业领域的广泛知识,反映了泰国教育体系的多层次需求。该数据集的创建时间为2023年,主要研究人员来自Typhoon团队,其研究成果已在arXiv上发布,并在斯坦福大学的HELM排行榜中得到了集成。
当前挑战
ThaiExam数据集在构建和应用过程中面临多重挑战。首先,数据集需要涵盖多个考试领域,确保其能够全面反映泰国教育体系的多样性。这要求数据收集过程中对不同考试的内容、题型和难度进行精确分类和标注。其次,由于泰语的语言特性,数据集的构建需要处理复杂的语言结构和语义理解问题,尤其是在涉及逻辑推理和专业知识的问题上。此外,数据集的规模相对较小(少于1000个样本),这限制了其在深度学习模型训练中的广泛应用。最后,数据集的版本更新和错误修正也是一个持续的挑战,确保其在不同版本之间的一致性和准确性。
常用场景
经典使用场景
ThaiExam数据集主要用于评估泰语语言模型在泰国教育考试中的表现。该数据集涵盖了泰国多个重要考试的题目,包括普通国家教育考试(ONET)、投资顾问考试(IC)、泰国通用能力测试(TGAT)、泰国专业能力测试1(TPAT-1)以及A级考试。这些考试题目不仅测试了学生的学科知识,还评估了他们的逻辑思维和批判性思维能力。通过使用该数据集,研究人员可以有效地评估模型在泰语环境下的多任务学习能力。
实际应用
ThaiExam数据集的实际应用场景广泛,尤其在泰国的教育和技术领域。教育机构可以利用该数据集开发智能辅导系统,帮助学生更好地准备各类考试。此外,金融行业的投资顾问考试题目也为相关从业人员的培训和认证提供了参考。通过该数据集,技术公司可以开发出更精准的泰语语言模型,应用于智能客服、自动评分系统等领域,提升服务质量和效率。
衍生相关工作
ThaiExam数据集的推出催生了一系列相关研究和技术应用。例如,基于该数据集开发的Typhoon泰语大语言模型,展示了其在多任务学习中的卓越表现。此外,该数据集还被整合到斯坦福大学CRFM的HELM排行榜中,进一步推动了全球范围内对泰语语言模型的评估和比较。这些衍生的研究工作不仅提升了泰语自然语言处理的技术水平,也为其他低资源语言的研究提供了宝贵的经验。
以上内容由遇见数据集搜集并总结生成



