OIBench
收藏arXiv2025-06-12 更新2025-06-14 收录
下载链接:
https://huggingface.co/datasets/AGI-Eval/OIBench
下载链接
链接失效反馈官方服务:
资源简介:
OIBench是一个高质量、私密且具有挑战性的信息学奥林匹克级别数据集,包含250个精心策划的原创问题。数据集由拥有丰富经验的ACM-ICPC团队教练收集,每个问题都经过严格筛选,确保其原创性和保密性,并具有适当的难度级别。数据集还包含经过验证的标准解决方案和强大的测试案例,以确保评估的准确性。OIBench的双语特性使其在国际范围内具有广泛的应用潜力,旨在推动未来大型语言模型在代码推理能力方面的进步。
OIBench is a high-quality, privacy-preserving and challenging Olympiad in Informatics-level dataset containing 250 carefully curated original problems. Collected by seasoned ACM-ICPC team coaches, each problem has undergone rigorous screening to ensure its originality, confidentiality and appropriate difficulty level. The dataset also includes validated standard solutions and robust test cases to guarantee the accuracy of evaluations. Featuring a bilingual design, OIBench has broad international application potential, and aims to advance the development of code reasoning capabilities in future large language models (LLMs).
提供机构:
美团
创建时间:
2025-06-12
原始信息汇总
OIBench 数据集概述
数据集基本信息
- 许可证: CC-BY-ND-4.0
- 下载大小: 1579799948 字节
- 数据集大小: 2383665753 字节
- 测试集样本数: 100
- 数据格式: Parquet
数据集结构
字段说明
id: 问题ID(例如:000,001, ...,249)prob_zh: 中文问题描述prob_en: 英文问题描述prob_level: 问题难度algorithm_tag_zh: 中文算法标签algorithm_tag_en: 英文算法标签canonical_solution: C++官方解决方案代码test_case: 测试用例列表,每个包含:input: 测试用例输入output: 测试用例输出
pseudo_code: 算法伪代码buggy_code: 有错误的代码corrupted_code: 不完整的代码
数据划分
- 测试集: 包含100个完整样本
数据内容说明
- 当前提供前100个问题的完整信息
- 剩余150个问题仅提供中英文问题描述(存储在
problem.parquet中) - 提供人类参赛者的比赛记录(存储在
human_participants_data.parquet中)
使用方法
python from datasets import load_dataset
dataset = load_dataset("Milo0007/OIBench") print(dataset)
搜集汇总
数据集介绍

构建方式
OIBench数据集由经验丰富的ACM-ICPC教练团队精心构建,这些教练平均拥有20年的竞赛指导经验。为确保数据质量,所有问题均选自教练的私人题库或根据严格标准新编原创题目,包括原创性、适当难度级别以及经过验证的规范解决方案和测试用例。此外,数据集经过六名信息学奥赛参与者的审核,确保问题可解、描述清晰,并包含适当的示例输入输出。最后,专业翻译团队将问题翻译成英文,并得到ACM教练和竞赛参与者的术语支持。
使用方法
OIBench适用于评估大型语言模型在算法推理和复杂问题解决中的能力。用户可以通过提供问题描述和测试用例,要求模型生成解决方案,并使用提供的测试用例验证其正确性和效率。数据集还支持伪代码评估,通过将规范解决方案转换为伪代码,帮助评估模型对解决方案的理解能力。此外,时间/空间完成曲线可用于分析模型生成的算法在不同资源限制下的表现。数据集完全开源,包含问题、测试用例、难度标签及规范解决方案,方便研究者进行全面的模型评估和分析。
背景与挑战
背景概述
OIBench是由AGI-Eval、北京师范大学、美团和上海交通大学的研究团队于2025年推出的一个高质量、私密且具有挑战性的信息学奥林匹克竞赛级别数据集。该数据集包含250个精心策划的原创编程问题,旨在评估大型语言模型在算法推理和复杂问题解决方面的能力。OIBench的创建源于传统算法基准(如HumanEval和MBPP)逐渐饱和的现状,这些基准的最先进模型解决率已超过90%。OIBench通过提供更具挑战性的问题,推动了算法推理能力的进一步发展。该数据集的双语特性(中英文)和严格的验证流程确保了其独特性和未被公开数据的纯净性。
当前挑战
OIBench面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决信息学奥林匹克竞赛级别的高难度编程问题,这些问题要求模型具备强大的算法设计和优化能力,尤其是在时间和空间复杂度方面。当前最先进的模型虽然在正确性和效率上已超越大多数人类参与者,但与标准解决方案相比仍有差距。2) 构建过程中的挑战:为确保数据集的原创性和私密性,研究人员必须严格筛选未公开的问题,并设计抗污染机制以防止数据泄露。此外,构建大规模、高质量的测试用例和标准解决方案也是一项复杂且耗时的任务。
常用场景
经典使用场景
OIBench数据集专为评估大型语言模型在信息学奥林匹克竞赛级别算法问题上的表现而设计。其经典使用场景包括测试模型在复杂编程问题上的推理能力、算法设计能力以及代码生成效率。通过提供250个精心策划的原创问题,OIBench能够全面评估模型在不同编程范式和复杂度下的表现,特别适用于前沿模型的性能对比和能力验证。
解决学术问题
OIBench解决了当前算法基准测试饱和的问题,为研究社区提供了一个更具挑战性的评估平台。它特别关注模型在复杂推理任务中的表现,填补了现有基准在区分模型推理能力方面的不足。此外,OIBench通过抗污染设计和细粒度效率分析,确保了评估结果的可靠性和科学性,为模型推理能力的提升提供了明确方向。
实际应用
在实际应用中,OIBench可用于评估和比较不同大型语言模型在解决复杂编程问题时的性能。教育机构可以利用该数据集来测试学生的算法能力,企业则可以借助它来筛选具备优秀编程能力的候选人。此外,OIBench还为模型开发者提供了一个可靠的基准,用于优化模型的推理和代码生成能力。
数据集最近研究
最新研究方向
随着大语言模型在算法推理和复杂问题解决方面展现出卓越能力,传统算法基准如HumanEval和MBPP已趋于饱和,迫切需要更具挑战性的基准来推动算法推理能力的进一步提升。OIBench作为一个高质量、私密且具有挑战性的信息学奥赛级别数据集,由250个精心筛选的原创问题构成,填补了这一空白。该数据集不仅涵盖了多种编程范式和复杂度,还通过实验验证了其抗污染特性,并提出了时间/空间完成曲线以实现更细粒度的效率分析。前沿研究聚焦于如何利用OIBench评估和提升大语言模型在复杂算法问题上的推理能力,特别是在代码生成、算法优化和效率分析方面。此外,OIBench的开源性质为研究社区提供了宝贵的资源,有望推动未来大语言模型在代码推理能力方面的重大突破。
相关研究论文
- 1OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics美团 · 2025年
以上内容由遇见数据集搜集并总结生成



