ThaiExam

github2025-02-28 更新2025-02-27 收录

下载链接：

https://github.com/dtinth/thaiexamjs

下载链接

链接失效反馈

官方服务：

资源简介：

泰国标准化考试数据集，由SCB 10X发布，用于评估AI语言模型在处理泰国标准化考试问题上的能力。

Thai Standardized Examination Dataset, published by SCB 10X, is designed to evaluate the capabilities of AI language models when handling Thai standardized examination questions.

创建时间：

2025-02-26

原始信息汇总

thaiexamjs 数据集概述

数据集简介

thaiexamjs 是一个实验和可视化项目，用于评估 AI 语言模型在泰国标准化考试上的表现。该项目使用 SCB 10X 发布的 ThaiExam 数据集以及 HELM。

数据集特点

零样本测试：与 HELM 的排行榜不同，该项目在零样本基础上评估模型，模型每次只看到一个问题，并必须输出答案。
结构化响应：模型需要以 JSON 格式输出答案，使得解析和评估更为直接。
推理透明度：基准测试允许模型在回答之前解释其推理过程，捕捉其思考过程。仪表板允许用户探索这些解释，以更好地理解不同模型如何处理相同问题。

数据集使用

目前仅使用 O-NET 测试（为了节省成本），尽管 ThaiExam 数据集还包含其他类型的标准化测试。

数据集模型卡

scb10x/thai_exam

安装与运行

安装依赖： bash bun install
准备 .env 文件： sh ANTHROPIC_API_KEY= AZURE_API_KEY= AZURE_API_ENDPOINT= GOOGLE_GENERATIVE_AI_API_KEY= OPENAI_API_KEY=
运行： bash

让模型参加考试

bun run scripts/run.ts <model-name>

使用特定考试筛选器运行（例如，仅 O-NET 考试）

EXAM_FILTER=onet bun run scripts/run.ts <model-name>

使用分片运行（处理考试的不同子集）

SHARD=1/3 bun run scripts/run.ts <model-name> # 处理考试的第一三分之一 SHARD=2/3 bun run scripts/run.ts <model-name> # 处理考试的第二个三分之一 SHARD=3/3 bun run scripts/run.ts <model-name> # 处理考试的最后一个三分之一

生成汇总文件（docs/onet.json）

bun run scripts/summarize.ts

生成 HTML 报告文件（docs/onet.html）

bun run scripts/generateOnetReport.ts

搜集汇总

数据集介绍

构建方式

ThaiExam数据集的构建，依托于泰国标准化考试，旨在评估AI语言模型在处理此类考试题目时的性能。数据集包含了O-NET测试等多种标准化测试题型，目前项目主要使用O-NET测试以节省成本。数据集的模型卡片提供了更多细节，展现了构建过程中的严谨性与科学性。

特点

ThaiExam数据集的特点在于其零样本测试方式，即模型每次只看到一个问题，并需独立作答，这与HELM的评价方法有显著区别。此外，模型需以JSON格式输出答案，便于解析和评价。数据集还允许模型在作答前解释其推理过程，增强了回答过程的透明度，有助于深入理解模型解题的思维方式。

使用方法

使用ThaiExam数据集时，首先需要安装相关依赖，配置环境变量，然后通过命令行运行脚本使模型进行考试。用户可以通过指定考试类型或使用分片技术来处理不同子集的考试。此外，还提供了生成汇总文件和HTML报告文件的脚本，方便对模型性能进行综合分析和可视化展示。

背景与挑战

背景概述

ThaiExam数据集，由SCB 10X机构发布，旨在评估人工智能语言模型在泰国标准化考试中的表现。该数据集的创建，标志着人工智能在教育评估领域的一次重要尝试，其对教育技术，尤其是自然语言处理技术在教育领域的应用研究产生了深远影响。数据集涵盖多种标准化测试，目前主要使用的是O-NET测试。该项目的核心研究问题是探索人工智能在处理零样本测试和结构化响应方面的能力，以及其解题过程的推理透明度。

当前挑战

ThaiExam数据集面临的挑战主要包括：如何准确评估人工智能在零样本测试环境下的表现，以及如何确保模型输出的结构化响应的准确性和合理性。此外，提高模型解题过程的推理透明度，使人类能够理解模型的思考过程，也是一大挑战。在构建过程中，数据集的多样性和覆盖范围也是必须考虑的因素，以确保模型能在各种标准化考试中表现出色。

常用场景

经典使用场景

ThaiExam数据集作为评估人工智能语言模型在泰国标准化考试上的表现的工具，其经典使用场景在于对模型进行零样本测试，即模型每次仅见一道题目，须直接输出答案。此外，模型还需以JSON格式输出答案，以便于解析和评估，同时可选地展示其推理过程，增强评估的透明度。

解决学术问题

该数据集解决了在自然语言处理领域，特别是在非英语语境下，评估AI模型对标准化考试题目理解和回答能力的问题。通过ThaiExam，研究者能够量化模型在不同类型标准化考试中的表现，为教育科技和人工智能在教育领域的应用提供了重要基准。

衍生相关工作

基于ThaiExam数据集，研究者们开展了多项相关工作，包括但不限于对多种语言模型的比较研究，以及探讨模型推理透明度的方法。这些衍生工作进一步推动了人工智能在教育评估领域的应用，并促进了相关技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

ThaiExam

thaiexamjs 数据集概述

数据集简介

数据集特点

数据集使用

数据集模型卡

安装与运行

让模型参加考试

使用特定考试筛选器运行（例如，仅 O-NET 考试）

使用分片运行（处理考试的不同子集）

生成汇总文件（`docs/onet.json`）

生成 HTML 报告文件（`docs/onet.html`）

ThaiExam

thaiexamjs 数据集概述

数据集简介

数据集特点

数据集使用

数据集模型卡

安装与运行

让模型参加考试

使用特定考试筛选器运行（例如，仅 O-NET 考试）

使用分片运行（处理考试的不同子集）

生成汇总文件（docs/onet.json）

生成 HTML 报告文件（docs/onet.html）

生成汇总文件（`docs/onet.json`）

生成 HTML 报告文件（`docs/onet.html`）