OIBench

arXiv2025-06-12 更新2025-06-14 收录

下载链接：

https://huggingface.co/datasets/AGI-Eval/OIBench

下载链接

链接失效反馈

官方服务：

资源简介：

OIBench是一个高质量、私密且具有挑战性的信息学奥林匹克级别数据集，包含250个精心策划的原创问题。数据集由拥有丰富经验的ACM-ICPC团队教练收集，每个问题都经过严格筛选，确保其原创性和保密性，并具有适当的难度级别。数据集还包含经过验证的标准解决方案和强大的测试案例，以确保评估的准确性。OIBench的双语特性使其在国际范围内具有广泛的应用潜力，旨在推动未来大型语言模型在代码推理能力方面的进步。

OIBench is a high-quality, privacy-preserving and challenging Olympiad in Informatics-level dataset containing 250 carefully curated original problems. Collected by seasoned ACM-ICPC team coaches, each problem has undergone rigorous screening to ensure its originality, confidentiality and appropriate difficulty level. The dataset also includes validated standard solutions and robust test cases to guarantee the accuracy of evaluations. Featuring a bilingual design, OIBench has broad international application potential, and aims to advance the development of code reasoning capabilities in future large language models (LLMs).

提供机构：

美团

创建时间：

2025-06-12

原始信息汇总

OIBench 数据集概述

数据集基本信息

许可证: CC-BY-ND-4.0
下载大小: 1579799948 字节
数据集大小: 2383665753 字节
测试集样本数: 100
数据格式: Parquet

数据集结构

字段说明

id: 问题ID（例如：000, 001, ..., 249）
prob_zh: 中文问题描述
prob_en: 英文问题描述
prob_level: 问题难度
algorithm_tag_zh: 中文算法标签
algorithm_tag_en: 英文算法标签
canonical_solution: C++官方解决方案代码
test_case: 测试用例列表，每个包含：
- input: 测试用例输入
- output: 测试用例输出
pseudo_code: 算法伪代码
buggy_code: 有错误的代码
corrupted_code: 不完整的代码

数据划分

测试集: 包含100个完整样本

数据内容说明

当前提供前100个问题的完整信息
剩余150个问题仅提供中英文问题描述（存储在problem.parquet中）
提供人类参赛者的比赛记录（存储在human_participants_data.parquet中）

使用方法

python from datasets import load_dataset

dataset = load_dataset("Milo0007/OIBench") print(dataset)

搜集汇总

数据集介绍

构建方式

OIBench数据集由经验丰富的ACM-ICPC教练团队精心构建，这些教练平均拥有20年的竞赛指导经验。为确保数据质量，所有问题均选自教练的私人题库或根据严格标准新编原创题目，包括原创性、适当难度级别以及经过验证的规范解决方案和测试用例。此外，数据集经过六名信息学奥赛参与者的审核，确保问题可解、描述清晰，并包含适当的示例输入输出。最后，专业翻译团队将问题翻译成英文，并得到ACM教练和竞赛参与者的术语支持。

使用方法

OIBench适用于评估大型语言模型在算法推理和复杂问题解决中的能力。用户可以通过提供问题描述和测试用例，要求模型生成解决方案，并使用提供的测试用例验证其正确性和效率。数据集还支持伪代码评估，通过将规范解决方案转换为伪代码，帮助评估模型对解决方案的理解能力。此外，时间/空间完成曲线可用于分析模型生成的算法在不同资源限制下的表现。数据集完全开源，包含问题、测试用例、难度标签及规范解决方案，方便研究者进行全面的模型评估和分析。

背景与挑战

背景概述

OIBench是由AGI-Eval、北京师范大学、美团和上海交通大学的研究团队于2025年推出的一个高质量、私密且具有挑战性的信息学奥林匹克竞赛级别数据集。该数据集包含250个精心策划的原创编程问题，旨在评估大型语言模型在算法推理和复杂问题解决方面的能力。OIBench的创建源于传统算法基准（如HumanEval和MBPP）逐渐饱和的现状，这些基准的最先进模型解决率已超过90%。OIBench通过提供更具挑战性的问题，推动了算法推理能力的进一步发展。该数据集的双语特性（中英文）和严格的验证流程确保了其独特性和未被公开数据的纯净性。

当前挑战

OIBench面临的挑战主要包括两个方面：1) 领域问题的挑战：该数据集旨在解决信息学奥林匹克竞赛级别的高难度编程问题，这些问题要求模型具备强大的算法设计和优化能力，尤其是在时间和空间复杂度方面。当前最先进的模型虽然在正确性和效率上已超越大多数人类参与者，但与标准解决方案相比仍有差距。2) 构建过程中的挑战：为确保数据集的原创性和私密性，研究人员必须严格筛选未公开的问题，并设计抗污染机制以防止数据泄露。此外，构建大规模、高质量的测试用例和标准解决方案也是一项复杂且耗时的任务。

常用场景

经典使用场景

OIBench数据集专为评估大型语言模型在信息学奥林匹克竞赛级别算法问题上的表现而设计。其经典使用场景包括测试模型在复杂编程问题上的推理能力、算法设计能力以及代码生成效率。通过提供250个精心策划的原创问题，OIBench能够全面评估模型在不同编程范式和复杂度下的表现，特别适用于前沿模型的性能对比和能力验证。

解决学术问题

OIBench解决了当前算法基准测试饱和的问题，为研究社区提供了一个更具挑战性的评估平台。它特别关注模型在复杂推理任务中的表现，填补了现有基准在区分模型推理能力方面的不足。此外，OIBench通过抗污染设计和细粒度效率分析，确保了评估结果的可靠性和科学性，为模型推理能力的提升提供了明确方向。

实际应用

在实际应用中，OIBench可用于评估和比较不同大型语言模型在解决复杂编程问题时的性能。教育机构可以利用该数据集来测试学生的算法能力，企业则可以借助它来筛选具备优秀编程能力的候选人。此外，OIBench还为模型开发者提供了一个可靠的基准，用于优化模型的推理和代码生成能力。

数据集最近研究