ZNO-Eval
收藏arXiv2025-01-12 更新2025-01-15 收录
下载链接:
https://github.com/NLPForUA/ZNO
下载链接
链接失效反馈官方服务:
资源简介:
ZNO-Eval是由敖德萨国立理工大学创建的用于评估大型语言模型在乌克兰语中推理能力的基准数据集。该数据集基于乌克兰的标准化教育测试系统,包含来自外部独立评估和全国多学科测试的真实考试题目,涵盖乌克兰语、数学、历史和地理等多个学科。数据集包含7466条数据,题型包括单选题、多选题、匹配题和开放式问题。数据集的创建过程包括从历年考试中提取题目,并将其转换为适合语言模型评估的格式。ZNO-Eval旨在解决乌克兰语语言模型在复杂推理任务中的性能评估问题,为多语言模型的开发提供支持。
ZNO-Eval is a benchmark dataset developed by Odesa National Polytechnic University for evaluating the reasoning capabilities of large language models (LLMs) in Ukrainian. This dataset is built upon Ukraine's standardized educational testing system, incorporating real exam questions sourced from external independent assessments and nationwide multi-subject tests, covering a wide range of disciplines including Ukrainian language, mathematics, history, geography, and others. The dataset contains 7,466 entries, with question types spanning single-choice questions, multiple-choice questions, matching questions, and open-ended questions. The development process of the dataset involves extracting questions from past examinations and converting them into a format compatible with language model evaluation workflows. ZNO-Eval is designed to address the gap in performance evaluation for Ukrainian language models on complex reasoning tasks, and provide valuable support for the development of multilingual models.
提供机构:
敖德萨国立理工大学
创建时间:
2025-01-12
搜集汇总
数据集介绍

构建方式
ZNO-Eval数据集的构建基于乌克兰标准化教育测试系统中的真实考试任务,包括外部独立评估(EIE)和全国多学科测试(NMT)。该数据集涵盖了乌克兰语、数学、历史和地理等多个学科,包含单选题、多选题、匹配题和开放式问题等多种题型。通过从过去十年的考试中筛选出具有代表性的题目,确保了数据集的多样性和复杂性。此外,所有数学公式均被转换为纯文本或LaTeX格式,以适应语言模型的输入需求。
特点
ZNO-Eval数据集的特点在于其多样性和真实性。它不仅涵盖了多个学科,还包含了多种题型,能够全面评估语言模型在不同领域和复杂度下的推理能力。数据集中的题目均来自乌克兰的标准化考试,具有较高的现实意义和学术价值。此外,数据集的构建还特别考虑了语言模型的输入限制,例如将数学公式转换为文本格式,以确保模型能够有效处理这些任务。
使用方法
ZNO-Eval数据集的使用方法主要包括零样本提示(zero-shot prompting)和模型评估。通过UA-LLM框架,研究人员可以对多个知名语言模型(如GPT-4o、Gemini-1.5 Pro等)进行推理能力的评估。评估过程中,模型被要求输出正确答案的字母、数字或计算结果。对于包含图像的题目,图像被替换为文本描述或直接跳过,以确保评估的公平性。通过这种方式,ZNO-Eval为研究人员提供了一个有效的工具,用于评估和比较不同语言模型在乌克兰语环境下的推理能力。
背景与挑战
背景概述
ZNO-Eval数据集由乌克兰敖德萨国立理工大学的Mykyta V. Syromiatnikov、Victoria M. Ruvinskaya和Anastasiya S. Troynina等研究人员于2024年创建,旨在评估大型语言模型在乌克兰语中的推理能力。该数据集基于乌克兰的外部独立评估(EIE)和全国多学科测试(NMT)的真实考试题目,涵盖了乌克兰语、数学、历史、地理等多个学科。ZNO-Eval的推出填补了乌克兰语在语言模型评估领域的空白,为多语言模型的推理能力评估提供了重要工具。该数据集不仅推动了乌克兰语自然语言处理的研究,也为其他非主流语言的模型评估提供了参考。
当前挑战
ZNO-Eval数据集面临的主要挑战包括两个方面。首先,在领域问题方面,尽管大型语言模型在英语等主流语言上的表现已得到广泛研究,但在乌克兰语等资源较少语言上的推理能力评估仍存在显著差距。乌克兰语的复杂语法结构和丰富的词汇特性使得模型在处理单答案、匹配和开放式问题时表现不佳,尤其是在数学和语言任务中。其次,在数据集构建过程中,研究人员面临将原始考试题目转化为适合模型评估格式的挑战,包括将数学公式转换为文本或LaTeX格式,以及处理图像相关任务的文本化问题。这些挑战凸显了开发多语言、多模态评估工具的重要性。
常用场景
经典使用场景
ZNO-Eval数据集主要用于评估大型语言模型在乌克兰语中的推理能力。该数据集基于乌克兰标准化教育测试系统中的真实考试任务,涵盖了乌克兰语、数学、历史和地理等多个学科的单选、多选、匹配和开放式问题。通过这一数据集,研究人员能够全面分析模型在不同领域和复杂度下的推理能力,尤其是在乌克兰语环境中的表现。
衍生相关工作
ZNO-Eval数据集的推出催生了一系列相关研究,特别是在乌克兰语语言模型的优化和评估方面。基于该数据集,研究人员开发了新的评估框架和模型微调方法,进一步提升了模型在乌克兰语任务中的表现。此外,该数据集还激发了多语言模型的研究兴趣,推动了其他非主流语言基准数据集的开发,促进了语言模型在全球范围内的多样化应用。
数据集最近研究
最新研究方向
随着大语言模型在多语言环境中的应用日益广泛,评估其在非英语语言中的推理能力成为研究热点。ZNO-Eval数据集的推出填补了乌克兰语大语言模型评估的空白。该数据集基于乌克兰标准化教育考试系统,涵盖语言、数学、历史、地理等多个学科,通过单答案、多选、匹配和开放式问题等形式,全面评估模型的推理能力。最新研究表明,GPT-4o在乌克兰语的常识推理和复杂语言任务中表现优异,而Gemini-1.5 Pro和GPT-4 Turbo在算术领域表现突出。尽管模型在历史和地理等文本任务中接近满分,但在乌克兰语和数学任务中仍存在显著差距,凸显了开发语言特定基准的重要性。未来研究将扩展ZNO-Eval至图像等多模态领域,以更全面地评估模型能力。
相关研究论文
- 1ZNO-Eval: Benchmarking reasoning capabilities of large language models in Ukrainian敖德萨国立理工大学 · 2025年
以上内容由遇见数据集搜集并总结生成



