OJI (Romanian County-Level Informatics Olympiad) 数据集

Name: OJI (Romanian County-Level Informatics Olympiad) 数据集
Creator: 布加勒斯特大学, It Just Works Inc., QPillars
Published: 2025-01-10T06:17:44+08:00

arXiv2025-01-10 更新2025-01-14 收录

信息学竞赛

多语言处理

数据链接：

http://arxiv.org/abs/2501.05601v1 数据链接链接失效反馈

官方服务：

资源简介：

OJI数据集是由罗马尼亚县级信息学奥林匹克竞赛提供的技术问题集合，包含300条罗马尼亚语的计算问题。该数据集由布加勒斯特大学等研究机构创建，旨在通过增强的英语翻译来支持大语言模型的训练和评估。数据集的内容涵盖了8年级学生的低至中等难度问题，涉及字符串处理等复杂文本。数据集的创建过程包括从原始罗马尼亚语问题中选择44条进行翻译，并通过多次运行GPT-4o模型来评估翻译质量。该数据集的应用领域主要集中在自动翻译、教育材料生成以及多语言技术问题的解决，旨在减少翻译错误并提高大语言模型在非英语语言任务中的表现。

The OJI Dataset is a collection of technical problems provided by the Romanian County-level Informatics Olympiad, containing 300 Romanian-language computational problems. Developed by research institutions including the University of Bucharest, this dataset aims to support the training and evaluation of Large Language Models (LLMs) through enhanced English translations. The dataset covers low-to-medium difficulty problems designed for 8th-grade students, involving complex text processing tasks such as string manipulation. The dataset creation workflow included selecting 44 original Romanian problems for translation, and evaluating the translation quality by running the GPT-4o model multiple times. The primary application scenarios of this dataset cover automatic translation, educational material generation, and multilingual technical problem solving, with the objective of reducing translation errors and improving the performance of LLMs on non-English language tasks.

提供机构：

布加勒斯特大学, It Just Works Inc., QPillars

创建时间：

2025-01-10

搜集汇总

数据集介绍

OJI (Romanian County-Level Informatics Olympiad) 数据集数据集图片

构建方式

OJI数据集的构建基于罗马尼亚县级信息学奥林匹克竞赛的题目，研究者从300道题目中选取了44道15-16岁学生的题目作为研究对象。每道题目首先由GPT-4o在罗马尼亚语环境下进行五次求解，记录其最高得分（Ro_score）。随后，这些题目通过多种大语言模型（如Llama 3.1、Llama 3.2、GPT-4o等）进行罗马尼亚语到英语的翻译，并在不同温度设置下评估翻译质量。翻译后的题目再次由GPT-4o进行求解，以比较翻译前后的得分差异。最终，通过人工校对和优化提示词，生成了高质量的英语翻译版本，增强了数据集的实用性。

使用方法

OJI数据集的使用方法主要包括两个方面：首先，研究者可以利用该数据集评估不同大语言模型在罗马尼亚语到英语翻译任务中的表现，特别是针对技术术语和复杂句式的翻译能力。其次，数据集中的翻译结果可以用于训练和优化多语言大语言模型，尤其是在处理技术文档和竞赛题目时。通过使用优化后的提示词，研究者可以进一步提升翻译的准确性和一致性。此外，该数据集还可用于教育领域，帮助非英语母语的学生更好地理解和解决信息学竞赛中的问题。

背景与挑战

背景概述

OJI (Romanian County-Level Informatics Olympiad) 数据集是由罗马尼亚布加勒斯特大学的研究团队于2024年创建的，旨在解决罗马尼亚语与英语之间的计算机科学问题翻译问题。该数据集的核心研究问题在于如何通过大语言模型（LLMs）将罗马尼亚语的计算问题准确翻译为英语，以支持自动翻译在编程竞赛和教育材料中的应用。研究团队通过增强OJI数据集，提供了精确的英语翻译，进一步提升了其在LLM训练和评估中的实用性。该数据集对多语言问题解决领域具有重要影响，尤其是在技术性内容的翻译质量提升方面。

当前挑战

OJI数据集面临的挑战主要集中在两个方面：首先，技术性内容的翻译要求极高的精确性，尤其是在数学和计算机科学领域，任何细微的翻译错误都可能导致问题的误解或无法解决。其次，构建过程中遇到的挑战包括如何确保翻译的语义和句法准确性，特别是在处理复杂的算法术语和结构时。研究团队通过多次实验和错误分析，发现LLMs在处理罗马尼亚语到英语的翻译时，常常出现词汇错误、语义不准确和结构不一致等问题。这些挑战需要通过优化提示设计和增加人工监督来解决，以确保翻译的准确性和可靠性。

常用场景

经典使用场景

OJI数据集在罗马尼亚县级信息学奥林匹克竞赛中扮演了重要角色，主要用于评估和训练学生在计算机科学领域的编程能力。该数据集包含了大量罗马尼亚语编写的编程问题，涵盖了从基础到高级的多种难度级别。通过将这些题目翻译成英语，研究者能够进一步扩展其应用范围，尤其是在国际化的编程竞赛和跨语言的教育资源开发中。

解决学术问题

OJI数据集通过提供罗马尼亚语编程问题的英语翻译，解决了跨语言编程竞赛中的翻译准确性问题。研究表明，大型语言模型（LLMs）在翻译技术性内容时，能够保持或提升其性能，尤其是在结构化提示的指导下。这一发现不仅为自动翻译系统提供了新的研究方向，还为多语言编程竞赛的公平性和准确性提供了保障。

实际应用

OJI数据集的实际应用场景广泛，尤其是在编程竞赛和教育资源的开发中。通过将罗马尼亚语编程问题翻译成英语，该数据集为国际学生和教师提供了高质量的编程练习材料。此外，自动翻译系统的引入减少了人工翻译中的错误和欺诈行为，确保了竞赛的公平性。该数据集还为多语言编程竞赛的自动化评估提供了基础。

数据集最近研究