thai_buddhist_studies_exam

Name: thai_buddhist_studies_exam
Creator: Biomedical and Data Lab, Mahidol University
Published: 2025-01-15 23:20:03
License: 暂无描述

Hugging Face2025-01-15 更新2025-01-16 收录

下载链接：

https://huggingface.co/datasets/biodatlab/thai_buddhist_studies_exam

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2023年泰国佛教研究（Nak Tham）考试的1350个多项选择题，用于评估大型语言模型对泰国佛教概念和教义的理解。数据通过OCR技术从PDF考试文件中提取，并经过结构化处理和人工验证以确保准确性。考试分为两个主要类别：'Nak Tham'（针对佛教僧侣和沙弥）和'Dhamma Studies'（针对对佛教教义感兴趣的普通公众），每个类别又分为初级、中级和高级三个级别。

提供机构：

Biomedical and Data Lab, Mahidol University

创建时间：

2025-01-15

搜集汇总

数据集介绍

构建方式

该数据集通过光学字符识别（OCR）技术从PDF格式的考试试卷中提取了1350道选择题，随后将这些题目整理并结构化为标准化的CSV格式。为确保数据的准确性，所有题目均经过人工审核和校正，确保文本、选项及正确答案的精确无误。

特点

该数据集涵盖了2023年泰国佛教研究（Nak Tham）考试的多项选择题，题目不仅测试记忆能力，更强调逻辑推理和推断能力，要求考生通过分析思维理解佛教原则。数据集分为初级、中级和高级三个层次，适合用于评估大型语言模型对泰国佛教概念和教义的理解能力。

使用方法

用户可通过Hugging Face的`datasets`库加载该数据集，并使用提供的模板生成问题提示。模板要求用户以佛教学者的身份回答问题，并提供正确答案、详细解释及相关的佛教经典或原则引用。数据集适用于评估模型在佛教知识领域的表现，并可通过计算模型在不同考试层次上的准确率进行初步评估。

背景与挑战

背景概述

Thai Buddhist Studies Examination (Nak Tham) 数据集由Fudan University的Phra Udom Siritientong和Mahidol University的Titipat Achakulvisut等研究人员于2023年创建，旨在评估大型语言模型对泰国佛教概念和教义的理解能力。该数据集包含1350道来自2023年泰国佛教研究考试的多项选择题，涵盖了初级、中级和高级三个层次。这些题目不仅测试记忆能力，更强调逻辑推理和推断能力，反映了佛教教义的核心思想。该数据集为佛教研究和自然语言处理领域的交叉研究提供了重要的基准。

当前挑战

Thai Buddhist Studies Examination 数据集面临的主要挑战包括：1) 领域问题的挑战：佛教教义深奥且复杂，模型需要具备深厚的佛教知识背景和逻辑推理能力才能准确回答问题；2) 数据构建过程的挑战：原始数据来自PDF格式的考试试卷，需要通过OCR技术进行文本提取，并经过人工校对和结构化处理，以确保数据的准确性和一致性。此外，由于佛教术语的多样性和文化背景的特殊性，数据集的构建和模型评估都面临较高的复杂性。

常用场景

经典使用场景

Thai Buddhist Studies Examination (Nak Tham) 数据集主要用于评估大型语言模型对泰国佛教概念和教义的理解能力。通过包含1350道选择题，该数据集为研究者提供了一个标准化的测试平台，用于衡量模型在佛教知识领域的表现。这些题目不仅要求记忆，还涉及逻辑推理和推断能力，能够全面测试模型对佛教原则的理解深度。

衍生相关工作

该数据集衍生了多项经典研究工作，特别是在佛教知识问答系统的开发领域。例如，基于该数据集的研究成果已被用于优化大型语言模型在佛教文本理解中的表现。此外，该数据集还激发了跨学科研究，如结合自然语言处理技术与佛教教育，推动了智能佛教教育工具的开发与应用。

数据集最近研究