Korean National Educational Test Benchmark (KoNET)

Name: Korean National Educational Test Benchmark (KoNET)
Creator: NAVER Cloud AI
Published: 2025-02-21 20:46:40
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

https://github.com/naver-ai/KoNET

下载链接

链接失效反馈

官方服务：

资源简介：

KoNET是一个基于韩国国家教育考试的新基准数据集，旨在评估多模态生成AI系统。该数据集包括韩国小学、初中、高中和大学入学考试四种考试，提供了详细的题目难度分析，能够对AI在不同教育水平上的能力进行细微评估。KoNET的独特之处在于，它专注于韩国语言，提供了对非英语和东亚语言环境中AI性能的见解。数据集的构建过程包括从韩国课程评价院公开发布的官方PDF中解析问题。KoNET的应用领域主要是教育技术，特别是在AI辅导市场，它可以帮助评估和改进多模态生成AI在教育场景中的表现。

KoNET is a novel benchmark dataset based on the Korean National Education Examinations, designed to evaluate multimodal generative AI systems. This dataset covers four types of examinations in the Korean education system: primary school, middle school, high school, and college entrance examinations, and provides detailed question difficulty analysis to enable fine-grained assessment of AI capabilities across different educational levels. What distinguishes KoNET is its exclusive focus on the Korean language, offering insights into AI performance in non-English and East Asian language contexts. The dataset’s construction process involves extracting questions from official publicly released PDFs issued by the Korea Institute for Curriculum and Evaluation. The main application domains of KoNET are educational technology, particularly the AI tutoring market, where it can assist in evaluating and enhancing the performance of multimodal generative AI in educational scenarios.

提供机构：

NAVER Cloud AI

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

KoNET数据集的构建方式是通过解析韩国课程评价研究所公开的官方PDF文件。这些文件包含了韩国全国教育考试中的所有问题，包括韩国小学一般教育发展考试（KoEGED）、韩国中学一般教育发展考试（KoMGED）、韩国高中一般教育发展考试（KoHGED）和韩国大学学术能力考试（KoCSAT）。KoNET将这些问题转换成多模态视觉问答（VQA）格式，并包含了每个问题的难度分析、科目多样性和人类错误率数据。

特点

KoNET数据集的特点在于它涵盖了从小学到大学的各个教育阶段，提供了不同难度级别的问题，从而能够全面分析AI在不同教育水平上的表现。KoNET专注于韩国语言，这为评估模型在较少探索的语言中的表现提供了新的视角。此外，KoNET还包括了人类错误率数据，使得模型的行为与人类表现进行彻底的比较成为可能。

使用方法

使用KoNET数据集的方法包括将模型与人类在韩国教育考试中的表现进行比较，评估模型在多模态理解和推理方面的能力。研究人员可以利用KoNET来评估开源、开放访问和闭源API模型的性能，并分析模型的困难、科目多样性和人类错误率。KoNET的构建代码和数据集生成器将完全开源，允许研究人员使用下载的官方PDF文件将其转换为基准格式。

背景与挑战

背景概述

教育领域的人工智能（AI）发展迅速，特别是在多模态生成AI系统方面，这些系统结合了自然语言处理和计算机视觉技术。然而，现有的基准测试主要集中在英语语言环境，对于低资源语言如韩语的关注不足。KoNET（Korean National Educational Test Benchmark）数据集的创建旨在填补这一空白，它是一个新的基准测试，用于评估多模态生成AI系统在韩国国家教育考试中的表现。KoNET包含四个考试：韩国小学通用教育发展测试（KoEGED）、中学（KoMGED）、高中（KoHGED）和大学学术能力测试（KoCSAT）。这些考试以其严格的标准和多样化的题目而闻名，能够全面分析AI在不同教育水平上的性能。KoNET的创建由NAVER Cloud AI的研究人员Sanghee Park和Geewook Kim共同领导，他们通过分析模型的困难程度、学科多样性和人为错误率，评估了一系列模型，包括开源、开放访问和闭源API模型。KoNET的代码和数据集构建器将在https://github.com/naver-ai/KoNET上完全开源，为多模态生成AI系统的研究提供了宝贵的资源。

当前挑战

KoNET数据集面临的挑战主要包括：1)解决领域问题的挑战：KoNET旨在解决现有基准测试主要关注英语，而忽略了全球语言的多样性，特别是对于低资源语言如韩语的评估不足的问题。2)构建过程中的挑战：构建KoNET的过程中，研究人员需要从韩国课程评估院的公开PDF中解析问题，并将其转换为多模态视觉问答（VQA）格式，这涉及到文本识别、图像处理和格式化等技术挑战。此外，KoNET主要遵循多项选择题格式，这可能会限制模型在表达问题解决过程方面的能力。未来研究可以探索更全面的方法来评估模型的推理能力，例如通过包含答案背后的推理过程。

常用场景

经典使用场景

KoNET 数据集是一个专为评估多模态生成式 AI 系统而设计的基准，它利用韩国国家教育考试来测试 AI 模型在不同教育水平上的表现。KoNET 由四个考试组成：韩国小学综合教育发展测试 (KoEGED)、中学 (KoMGED)、高中 (KoHGED) 和大学学术能力测试 (KoCSAT)。这些考试以其严格的标准和多样化的题目而闻名，为 AI 性能在不同教育水平上的全面分析提供了便利。KoNET 通过关注韩国语，为模型在较少探索的语言中的表现提供了见解。该数据集评估了各种模型，包括开源、开放访问和封闭 API 模型，通过考察难度、科目多样性和人为错误率来评估模型性能。KoNET 的代码和数据集构建器将在 https://github.com/naver-ai/KoNET 上完全开源。

衍生相关工作

KoNET 数据集的衍生相关工作包括对多模态和双语 AI 研究的推动。KoNET 为研究人员提供了一个评估 AI 模型在处理低资源语言和不同教育水平上的问题的能力的工具。此外，KoNET 还可用于开发新的基准和评估方法，以更好地衡量 AI 模型在教育环境中的表现。通过使用 KoNET，研究人员可以探索 AI 模型的局限性和改进的方向，并为 AI 辅导和教育技术解决方案提供改进的方向。

数据集最近研究