UA-Code-Bench

Name: UA-Code-Bench
Creator: Odesa Polytechnic National University
Published: 2025-11-07 15:24:56
License: 暂无描述

arXiv2025-11-07 更新2025-11-11 收录

下载链接：

https://huggingface.co/datasets/NLPForUA/ua-code-bench

下载链接

链接失效反馈

官方服务：

资源简介：

UA-Code-Bench是一个针对乌克兰语的大型语言模型代码生成能力进行评估的基准数据集。该数据集包含来自Eolymp平台上的500个编程问题，涵盖了从非常简单到非常困难的五个难度级别。数据集旨在评估LLMs在低资源语言环境下的代码生成和竞争性编程问题解决能力。

UA-Code-Bench is a benchmark dataset for evaluating the code generation capabilities of large language models (LLMs) in the Ukrainian language. This dataset includes 500 programming problems sourced from the Eolymp platform, covering five difficulty levels ranging from very simple to extremely challenging. The dataset is intended to evaluate the code generation and competitive programming problem-solving abilities of LLMs in low-resource language settings.

提供机构：

Odesa Polytechnic National University

创建时间：

2025-11-07

搜集汇总

数据集介绍

构建方式

在低资源语言代码生成评估领域，UA-Code-Bench通过系统化采集Eolymp平台的500道乌克兰语编程题目构建而成。这些题目依据算法复杂度与典型通过率被均衡划分为五个难度等级，从基础数学运算到需要高效算法设计的竞赛级题目全覆盖。构建过程中采用自动化评判系统验证代码正确性，确保每个问题均配备隐藏测试用例，为模型性能评估提供可靠基准。

特点

该数据集显著特征在于其原生乌克兰语问题描述与多维度评估体系。除基础的正确率指标外，创新性地引入计算效率评估维度，涵盖最坏情况执行时间与内存消耗的横向对比。数据分布呈现典型的金字塔结构，简单任务占比40%而高难度任务仅占20%，有效区分模型的基础编码能力与复杂算法推理水平。独特的唯一解题数统计更揭示模型在特定领域的专长优势。

使用方法

使用本数据集时需通过专用评估环境提交Python代码解决方案。采用单样本提示策略，每个任务包含一个乌克兰语示例及其对应解答，引导模型理解输入输出格式。评估过程严格遵循竞争编程标准，代码需在30分钟内通过所有隐藏测试方可认定为有效解答。研究者可通过综合指标分析模型表现，包括通过率、计算资源效率及独特解题能力等多维度数据。

背景与挑战

背景概述

随着大型语言模型在代码生成领域的广泛应用，评估其在低资源语言中的实际能力成为亟待解决的问题。UA-Code-Bench由敖德萨理工大学研究人员Mykyta V. Syromiatnikov与Victoria M. Ruvinskaya于2025年创建，作为首个乌克兰语原生代码生成基准数据集，其核心目标在于系统评估语言模型在乌克兰语竞争性编程任务中的代码生成质量与算法推理能力。该数据集从Eolymp平台精选500道涵盖五个难度等级的编程题目，通过自动化评测框架对13种主流模型进行严格验证，填补了乌克兰语代码生成评估体系的空白，为多语言代码智能研究提供了重要基础设施。

当前挑战

在领域问题层面，该数据集直面低资源语言代码生成的三大挑战：模型对乌克兰语复杂指令的理解偏差导致算法实现错误，高阶编程问题所需的深层推理能力普遍不足，以及生成代码在时间空间效率上的优化困境。构建过程中需攻克多维度难题：从Eolymp平台提取高质量乌克兰语题目时需保持原语义完整性，设计兼顾公平性与可复现性的自动化评测流程，以及建立能准确反映代码正确性、运行效率和资源消耗的多层次评估指标体系。

常用场景

经典使用场景

在低资源语言代码生成研究领域，UA-Code-Bench作为首个乌克兰语竞争性编程基准测试集，主要用于评估大语言模型在乌克兰语环境下的代码生成能力。该数据集通过从Eolymp平台精选的500道编程题目，覆盖从基础到高阶的五种难度级别，为研究者提供了标准化的评估框架。模型需要在单次提示下生成Python解决方案，并通过隐藏测试用例验证代码正确性，这种设置有效模拟了真实编程环境中的问题解决过程。

衍生相关工作

基于该数据集的研究催生了多语言代码生成评估范式的创新。相关工作开始关注低资源语言与代码生成质量的关联机制，推动了如ZNO-Eval等乌克兰语基准测试体系的完善。同时，该数据集启发了对模型架构的改进探索，特别是在跨语言表示学习和推理增强方面的研究。后续工作还延伸至多模态代码生成领域，结合文本与视觉信息构建更全面的评估框架，为开发真正包容性的AI编程助手奠定了理论基础。

数据集最近研究