MateInfoUB

Name: MateInfoUB
Creator: 布加勒斯特大学数学与计算机科学学院
Published: 2025-07-04 04:43:28
License: 暂无描述

arXiv2025-07-04 更新2025-07-09 收录

下载链接：

https://huggingface.co/datasets/EHollower/ MateInfoUB

下载链接

链接失效反馈

官方服务：

资源简介：

MateInfoUB是一个由布加勒斯特大学数学与计算机科学学院创建的双语（英语和罗马尼亚语）多模态（文本和图像）数据集，包含100个多项选择题。这些问题最初是作为大学入学考试的一部分提出的。数据集中的问题可以通过数学和算法推理或生成可执行的Python代码来解决。该数据集旨在评估大型语言模型在高级计算机科学竞赛中的表现，并为教育技术和竞争性编程评估的未来研究提供资源。

提供机构：

布加勒斯特大学数学与计算机科学学院

创建时间：

2025-07-04

搜集汇总

数据集介绍

构建方式

MateInfoUB数据集的构建基于罗马尼亚布加勒斯特大学数学与计算机科学学院组织的高水平计算机科学竞赛。该数据集包含100道双语（英语和罗马尼亚语）多选题，题目源自竞赛的第一阶段在线测试，涵盖理论编程任务和实际编码问题。数据收集过程中，题目首先以罗马尼亚语呈现，随后通过Gemini 2.0 Flash进行严格的逐字翻译，并经过人工校对以确保准确性。部分题目还包含图像（如代码片段或图表），并通过文本描述增强其可访问性。

特点

MateInfoUB数据集的核心特点在于其双语性和多模态设计，题目不仅测试编程能力，还强调数学与算法推理。数据集中的问题被设计为可通过纸上推理或代码编写两种方式解决，从而全面评估大型语言模型（LLMs）的灵活性和适应性。此外，该数据集模拟了高风险的竞赛环境，提供了丰富的理论知识与实践应用结合的案例，为研究LLMs在复杂教育评估中的表现提供了独特视角。

使用方法

该数据集适用于多方面的研究与应用，包括但不限于LLMs在双语环境下的性能评估、教育技术工具的开发和竞赛级编程能力的测试。使用者可通过公开的Hugging Face平台获取数据集，并利用配套的开源教育应用程序进行交互式练习。在实验设计中，建议结合链式思维（Chain-of-Thought）提示和混合解题策略（如自主选择直接推理或代码生成），以充分挖掘模型的潜力。此外，数据集还可用于探讨教育公平性和学术诚信等伦理问题。

背景与挑战

背景概述

MateInfoUB数据集由布加勒斯特大学数学与计算机科学学院的Dumitran Adrian Marius等人于2025年创建，旨在评估大型语言模型（LLMs）在竞争性、多语言和多模态教育任务中的表现。该数据集源自罗马尼亚高水平计算机科学竞赛的双语（英语-罗马尼亚语）多模态（文本与图像）选择题库，其核心研究问题是探究LLMs在复杂计算机科学教育场景中的理论编程能力与多模态推理局限。作为首个融合竞赛环境模拟与双语评估的教育基准，该数据集为计算机科学教育中的自适应评估和伦理应用提供了重要实证依据。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决LLMs对视觉-空间推理与算法思维结合型任务的系统性缺陷，特别是当问题要求同时进行数学推导和代码生成时，模型表现存在显著波动；在构建过程中，需克服双语对齐的技术难题——自动翻译导致的语义损耗和罗马尼亚语特有的语法结构，要求研究人员进行严格的人工校验以确保评估的公平性。此外，竞赛环境的高风险特性要求数据集设计必须平衡创新性与学术诚信，避免成为LLMs的针对性训练素材。

常用场景

经典使用场景

MateInfoUB数据集作为一项双语（英语-罗马尼亚语）多模态（文本与图像）的计算机科学竞赛题目集合，其经典使用场景主要聚焦于评估大型语言模型（LLMs）在高级计算机科学教育环境中的表现。该数据集通过模拟高风险的大学预科考试情境，为研究者提供了测试模型在理论编程任务、多语言理解及视觉推理等方面能力的标准化平台。尤其在需要模型自主选择解题策略（如数学推导或代码生成）的混合型问题中，其设计巧妙揭示了模型在复杂认知任务中的适应性。

实际应用

在实际应用层面，MateInfoUB已衍生出面向罗马尼亚学生的自适应学习平台，支持交互式题目练习与即时反馈。其问题设计逻辑被竞赛组织者用于优化在线监考策略，通过筛选LLM易错题目类型（如需视觉空间推理的图论问题）来保障考试公平性。教育机构可基于该数据集的性能分析报告，制定差异化的编程教学方案，例如强化模型表现薄弱的算法思维训练模块。

衍生相关工作

该数据集推动了多个经典研究方向的发展：基于其混合解题范式的评估方法，DeepSeek团队改进了代码生成模型的自主策略选择模块；其双语特性启发了MultiPL-E等基准测试的跨语言扩展研究；伦理评估框架被Huang等人(2025)引入学术诚信监测系统的开发。此外，数据集中的视觉推理题目为Liu等人(2023)的视觉指令调优研究提供了新的验证素材。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集