osyvokon/zno

Name: osyvokon/zno
Creator: osyvokon
Published: 2024-03-03 20:23:36
License: 暂无描述

Hugging Face2024-03-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/osyvokon/zno

下载链接

链接失效反馈

官方服务：

资源简介：

ZNO数据集包含乌克兰外部独立测试（ZNO）的机器可读问题和答案，主要涉及乌克兰历史和乌克兰语言与文学两个科目。训练集包含2006-2019年的3063个问题/答案，测试集包含2020-2023年的751个问题/答案。每个问题都以JSONL格式存储，包含问题文本、答案选项、正确答案和科目信息。数据集结构按科目和子集（训练集和测试集）进行了详细划分。预处理步骤包括将问题文本转换为Markdown格式，跳过包含图像的问题、开放式问题以及需要匹配多个陈述的问题，并移除文学作品的全文链接。

提供机构：

osyvokon

原始信息汇总

ZNO数据集

数据集概述

该数据集包含乌克兰外部独立测试（乌克兰语中称为_ЗНО_/ZNO）的机器可读问题和答案。问题科目包括：

乌克兰历史
乌克兰语言和文学

训练集包含2006-2019年考试的3063个问题/答案。测试集包含2020-2023年考试的751个问题/答案。

文件格式

每个.jsonl文件中的每一行包含如下结构： json { "question": "На другий склад падає наголос у слові", "answers": [ { "marker": "А", "text": "начинка" }, { "marker": "Б", "text": "випадок" }, { "marker": "В", "text": "дрова" }, { "marker": "Г", "text": "загадка" }, { "marker": "Д", "text": "русло" } ], "correct_answers": ["Д"], "subject": "ukrainian-language-and-literature" }

目前，所有问题只有一个正确答案，存储在correct_answers[0]中。

数据集结构

科目	子集	大小
乌克兰语言和文学	训练集	1925个问题
乌克兰语言和文学	测试集	403个问题
乌克兰历史	训练集	1138个问题
乌克兰历史	测试集	348个问题

预/后处理

问题文本已转换为Markdown格式。
包含图像的问题被跳过（约600个案例）。
开放式问题（如“写下你的想法...”）被跳过。
需要将多个陈述与多个选项匹配的问题被跳过。
文学作品全文链接被移除。

搜集汇总

数据集介绍

构建方式

在乌克兰外部独立测试（ZNO）的学术评估框架下，该数据集通过系统采集2006年至2023年间的历史与语言文学科目试题构建而成。构建过程严格遵循机器可读性原则，原始试题经过Markdown格式转换，并剔除了包含图像、开放性作答及多对多匹配类型的题目，确保了数据的结构化与一致性。训练集涵盖2006-2019年的3063道题目，测试集则包含2020-2023年的751道题目，形成了时序上的清晰划分。

特点

本数据集聚焦于乌克兰历史与语言文学两大核心学科，题目均来源于权威的ZNO标准化考试，具有高度的规范性与代表性。数据以JSON Lines格式存储，每条记录清晰呈现问题文本、多项选择答案及唯一正确答案，结构简洁且易于解析。值得注意的是，所有题目均设计为单一正确选项，这为模型训练提供了明确的监督信号。数据集规模的学科分布均衡，语言文学类题目数量略多于历史类，反映了实际考试中的侧重比例。

使用方法

该数据集适用于自然语言处理领域的多项任务，特别是问答系统与教育评估模型的开发。研究者可直接加载JSONL文件，利用`question`字段作为输入，`correct_answers`字段作为训练标签，进行模型训练与评估。数据集已预分为训练集与测试集，支持跨年度泛化能力的验证。在UNLP 2024共享任务中，该数据集已被用作基准测试平台，为乌克兰语教育技术研究提供了重要资源。

背景与挑战

背景概述

在教育评估与自然语言处理交叉领域，乌克兰外部独立测试（ZNO）数据集由osyvokon团队于2024年前后构建并发布，旨在为乌克兰历史及乌克兰语言文学学科提供高质量的机器可读问答资源。该数据集系统性地收录了2006年至2023年间的官方试题与答案，覆盖了超过3800个多项选择题项，其核心研究问题聚焦于如何利用标准化考试数据推动教育智能化，特别是在自动问答、知识评估及语言模型适应性训练等方向。该资源的公开不仅为乌克兰语自然语言处理研究填补了数据空白，也为跨文化教育技术比较研究提供了重要基准。

当前挑战

该数据集首要应对的领域挑战在于如何实现高精度、跨学科的教育内容自动理解与评估，尤其是在处理乌克兰语这一资源相对稀缺的语言时，模型需克服语言特异性、文化背景依赖以及复杂语义推理等难题。在构建过程中，研究者面临多重技术障碍：原始试题中大量包含图像、开放式问题及多对多匹配题型，这些非结构化或复杂交互形式的数据难以直接转化为机器可读格式，导致约600个图像类问题被舍弃；同时，为确保数据质量与一致性，需对文本进行Markdown转换并剔除文学全文链接，这要求精细的预处理流程与领域知识嵌入。

常用场景

经典使用场景

在自然语言处理领域，乌克兰ZNO数据集为多选问答任务提供了宝贵的资源。该数据集聚焦于乌克兰历史、语言与文学，其结构化的问题与答案设计，使得研究者能够构建和评估模型在理解复杂文本、进行知识推理方面的能力。通过模拟真实的外部独立测试环境，该数据集成为训练模型处理教育领域特定知识问答的经典基准。

衍生相关工作

围绕ZNO数据集，已衍生出多项经典研究工作，例如UNLP 2024共享任务将其作为核心评估基准，推动了乌克兰语问答模型的创新。相关研究聚焦于多语言模型微调、知识增强推理以及低资源语言处理技术，这些工作不仅深化了对特定文化语境下语言理解的认识，也为后续教育NLP应用奠定了方法论基础。

数据集最近研究