OIBench

github2025-07-11 更新2025-07-23 收录

下载链接：

https://github.com/AGI-Eval-Official/OIBench

下载链接

链接失效反馈

官方服务：

资源简介：

OIBench是一个高质量、私有的、具有挑战性的奥林匹克级信息学基准测试，包含250个精心策划的原始问题。

OIBench is a high-quality, private, and challenging Olympic-level informatics benchmark test, comprising 250 meticulously planned original problems.

创建时间：

2025-07-10

原始信息汇总

OIBench数据集概述

数据集简介

名称: OIBench
性质: 高质量、私有且具有挑战性的信息学奥林匹克级别基准测试
规模: 包含250个精心策划的原创问题
论文: OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics
数据访问: HuggingFace

评估系统

评分系统: 通过scorer.py实现，用于评估模型性能
输出结果:
- 模型分数输出至stdout
- 详细案例结果保存至cases.json
代码处理: 提供code_utils文件中的函数提取器，便于处理模型响应

环境要求

Ubuntu系统

C++: sudo apt install -y libssl-dev libcrypto++-dev
Python: sudo apt install -y python3 python3-pip
Java: sudo apt install -y openjdk-11-jdk
Node.js: 通过NodeSource安装LTS版本

CentOS系统

C++: sudo yum group install -y "Development Tools" + openssl-devel
Python 3: 通过EPEL仓库安装
Java: sudo yum install -y java-11-openjdk-devel
Node.js: 通过NodeSource安装LTS版本

使用说明

安装Python依赖: pip install -r requirements.txt
运行评分器: python scorer.py
注意事项: 实际执行时需替换为模型的响应代码

引用信息

bibtex @misc{zhu2025oibenchbenchmarkingstrongreasoning, title={OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics}, author={Yaoming Zhu and Junxin Wang and Yiyang Li and Lin Qiu and ZongYu Wang and Jun Xu and Xuezhi Cao and Yuhuai Wei and Mingshi Wang and Xunliang Cai and Rong Ma}, year={2025}, eprint={2506.10481}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.10481}, }

致谢

评分器逻辑改编自OctoPack: Instruction Tuning Code Large Language Models的实现

搜集汇总

数据集介绍

构建方式

OIBench作为面向信息学奥赛的高质量评测基准，其构建过程体现了严谨的学术态度。研究团队通过精心筛选250道原创题目构建核心题库，每道题目均配备权威的标准解答方案。数据集的开发严格遵循学术规范，采用多语言环境支持的设计架构，涵盖C++、Python、Java和Node.js等主流编程语言的技术栈，确保评测体系的全面性与可靠性。构建过程中特别注重题目难度梯度的科学分布，以准确评估模型的高级推理能力。

特点

该数据集展现出鲜明的专业特性，其题目设计源自真实信息学奥林匹克竞赛体系，具有显著的挑战性和学术价值。数据集的独特之处在于采用动态更新的积分榜机制，通过AGI-Eval社区持续追踪模型表现。评测系统设计精巧，不仅提供整体得分评估，还能生成细粒度的案例分析报告。技术实现上创新性地整合了多语言运行环境，并适配主流操作系统平台，为复杂算法问题的公平评测提供了标准化解决方案。

使用方法

使用该数据集需建立完整的开发环境，包括配置C++编译器、Python解释器、Java运行环境和Node.js平台。通过安装requirements.txt指定的依赖包后，用户可调用scorer.py脚本进行模型评估。实际操作时需将标准解答替换为待测模型的代码输出，系统支持通过OpenAI API等接口获取模型响应。评测结果将同时输出至控制台和cases.json文件，包含模型总分和逐题分析数据。研究团队在代码工具中提供了实用的函数提取器，显著简化了模型输出的预处理流程。

背景与挑战

背景概述

OIBench是由AGI-Eval社区于2025年推出的高质量、私有化奥林匹克信息学评测基准，包含250道精心设计的原创题目。该数据集由Yaoming Zhu等研究人员在arXiv预印本论文中首次提出，旨在为强推理模型提供专业级评估平台。作为计算机科学竞赛领域的专用工具，其题目设计融合了算法复杂度分析与编程实现双重维度，显著推动了AI模型在复杂逻辑推理和高效计算方面的研究进程。数据集通过HuggingFace平台开源，采用多语言环境支持的设计理念，为衡量模型在信息学奥赛层面的认知能力建立了标准化体系。

当前挑战

构建OIBench面临的核心挑战体现在问题设计与评估体系两个层面。题目需同时满足竞赛级难度与机器可解性的平衡，每道题目需设计精确的输入输出边界条件和时空复杂度约束。技术实现上需克服多语言评测环境的一致性难题，包括C++/Python/Java/Node.js的跨平台编译支持与安全沙箱执行。评估维度需量化模型对递归优化、动态规划等高级算法思想的掌握程度，这对评分系统的判别粒度提出极高要求。数据集的私有性特征也带来了测试用例防泄露与评估结果可复现性的双重技术挑战。

常用场景

经典使用场景

在计算机科学教育领域，OIBench作为一项高质量的奥林匹克信息学竞赛基准测试，主要用于评估和比较不同人工智能模型在解决复杂编程问题上的能力。该数据集包含250道精心设计的原创题目，涵盖了算法设计、数据结构优化等核心内容，为研究者提供了一个标准化的测试平台。通过模拟真实的竞赛环境，OIBench能够全面检验模型在时间复杂度和空间复杂度优化方面的表现。

衍生相关工作

围绕OIBench数据集，研究者们开展了一系列重要工作。OctoPack项目利用类似的评测逻辑进行代码大模型的指令调优，显著提升了模型性能。多篇顶会论文引用该数据集作为强推理评估的标准，其中包括对Transformer架构在算法推理任务中的系统性研究。这些工作共同推动了代码生成模型在复杂场景下的应用边界。

数据集最近研究