HAERAE-HUB/csatqa

Name: HAERAE-HUB/csatqa
Creator: HAERAE-HUB
Published: 2023-09-10 17:12:24
License: 暂无描述

Hugging Face2023-09-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/HAERAE-HUB/csatqa

下载链接

链接失效反馈

官方服务：

资源简介：

CSAT-QA是一个包含936个多项选择题的数据集，这些题目来自韩国大学入学考试（CSAT）。该数据集旨在填补韩语处理领域评估方法的不足，分为完整版和专门用于评估的小型版。小型版进一步分为六个类别：写作（WR）、语法（GR）、阅读理解：科学（RCS）、阅读理解：社会科学（RCSS）、阅读理解：人文（RCH）和文学（LI），并包含韩国学生的准确率数据。

提供机构：

HAERAE-HUB

原始信息汇总

数据集概述

数据集名称

CSAT-QA

数据集内容

问题类型：包含936个多选题问答（MCQA）问题。
来源：手动收集自韩国大学入学考试（CSAT）。
子集：分为完整版和专门用于目标评估的小型版本。小型版本进一步分为六个类别：写作（WR）、语法（GR）、科学阅读理解（RCS）、社会科学阅读理解（RCSS）、人文阅读理解（RCH）和文学（LI）。

数据集特征

特征名称：test_name, question_number, context, question, gold, option#1, option#2, option#3, option#4, option#5, Category, Human_Peformance, index_level_0
数据类型：string, int64, float64

数据集大小

训练集：936个示例，总大小4220807字节。
下载大小：1076028字节。

使用方法

完整版下载： python from datasets import load_dataset dataset = load_dataset("EleutherAI/CSAT-QA", "full")
小型版本下载： python from datasets import load_dataset import pandas as pd dataset = load_dataset("EleutherAI/CSAT-QA", "GR") # 选择WR, GR, LI, RCH, RCS, RCSS之一

评估结果

提供了多个模型的评估结果，包括polyglot-ko-12.8B, gpt-3.5-wo-token, gpt-3.5-w-token, gpt-4-wo-token, gpt-4-w-token, 以及Human Performance在不同类别上的表现。

许可证

版权属于韩国课程与评估研究所(한국교육과정평가원)，仅限研究用途。

5,000+

优质数据集

54 个

任务类型

进入经典数据集