CodeContests-O

Hugging Face2026-01-21 更新2026-01-22 收录

下载链接：

https://huggingface.co/datasets/caijanfeng/CodeContests-O

下载链接

链接失效反馈

官方服务：

资源简介：

CodeContests-O 是一个高质量的竞争性编程数据集，包含经过迭代优化的测试用例，旨在为训练和评估以推理为中心的大型语言模型（LLMs）提供可靠的验证信号。该数据集基于 CodeContests 数据集构建，采用了一种新颖的反馈驱动迭代框架，系统地合成、验证和优化测试用例，从而实现了卓越的保真度和判别力。主要特点包括高质量的测试用例（TPR 89.37%，TNR 90.89%）、迭代优化过程、完整的生成工具（如生成器、检查器和命令）以及经过验证的有效性（在 LiveCodeBench 上 Pass@1 提高了 9.52%）。数据集包含 11,682 个问题，每个问题平均有 40.19 个测试用例，并评估了约 1.1×10^7 个解决方案。

CodeContests-O is a high-quality competitive programming dataset featuring iteratively optimized test cases, designed to provide reliable validation signals for training and evaluating reasoning-centric Large Language Models (LLMs). Constructed upon the CodeContests dataset, it adopts a novel feedback-driven iterative framework to systematically synthesize, validate and optimize test cases, thereby achieving superior fidelity and discriminative performance. Key features include high-quality test cases (TPR 89.37%, TNR 90.89%), an iterative optimization workflow, complete generation toolkits (such as generators, checkers and command-line utilities), and validated effectiveness, with a 9.52% improvement in Pass@1 on LiveCodeBench. The dataset contains 11,682 programming problems, with an average of 40.19 test cases per problem, and approximately 1.1×10^7 program solutions have been evaluated.

创建时间：

2026-01-20

原始信息汇总

CodeContests-O 数据集概述

数据集基本信息

数据集名称：CodeContests-O
数据集地址：https://huggingface.co/datasets/caijanfeng/CodeContests-O
构建目的：为训练和评估以推理为中心的大型语言模型提供可靠的验证信号，包含经过迭代精炼的高质量测试用例。
基础数据：基于CodeContests数据集构建。

数据集规模与结构

数据规模

问题总数：11,682
平均每个问题的测试用例数：40.19
平均每个问题的正确解数量：309.23
平均每个问题的错误解数量：594.12
评估的总解决方案数：约 1.1×10^7

数据划分与大小

数据划分	样本数量	数据大小（字节）
训练集（train）	11,407	692,913,981,543
测试集（test）	162	10,751,116,880
验证集（valid）	114	10,415,379,953
总计	11,683	714,080,478,376
下载大小	-	324,619,170,724

数据结构（特征字段）

字段名	数据类型	描述
`name`	`large_string`	问题名称/标识符
`description`	`large_string`	完整的自然语言问题描述
`corner_cases`	`list[dict]`	最终合成的测试用例（输入-输出对）列表
`commands`	`list[string]`	生成器的最终执行命令列表
`generator`	`large_string`	最终精炼后的生成器程序（C++ with testlib）
`checker`	`large_string`	用于多解问题的基于逻辑的检查器（C++ with testlib）
`input_constraints_summary`	`large_string`	从问题描述中总结的输入约束
`results`	`list[dict]`	完整的迭代历史记录列表

测试用例结构

每个 corner_cases 中的测试用例包含： json { "input": { "stdin": "输入字符串" }, "output": { "stdout": "输出字符串" } }

迭代历史结构

results 字段记录了完整的迭代精炼过程，每个迭代包含以下字段：

字段名	数据类型	描述
`corner_cases`	`list[dict]`	本次迭代生成的测试用例
`generate_commands`	`list[string]`	本次迭代生成的命令
`commands_replace`	`list[string]`	标记为替换的命令（第0次迭代为空）
`commands_add`	`list[string]`	新增的命令（第0次迭代为空）
`generate_case_inputs`	`list[string]`	生成的原始用例输入
`improved_generator`	`string`	本次迭代后更新的生成器
`search_replace_generator_blocks`	`list[string]`	应用于生成器的搜索-替换块
`unmatched_blocks`	`list[string]`	未能匹配的块（用于调试）

核心方法与特点

核心方法：反馈驱动的迭代框架

初始测试用例生成：LLM分析问题描述，识别输入输出约束和常见算法缺陷，合成初始生成器程序和执行命令。
执行与反馈收集：生成的测试用例在正确解和错误解池中执行，收集误报和漏报等反馈报告。
反馈引导的精炼：LLM根据反馈进行根因分析，使用“搜索-替换”机制更新生成器程序，重新设计执行命令以探索新的参数空间。迭代循环在达到预设的TPR/TNR阈值或最大迭代次数时终止。

关键特点

高质量测试用例：最终迭代（第3次）实现了 89.37% 的真阳性率和 90.89% 的真阴性率，显著优于原始CodeContests和CodeContests+数据集。
迭代精炼：测试用例通过利用正确和错误解决方案的执行反馈的闭环过程逐步改进。
完整的生成工件：包含生成器、检查器、命令和完整的迭代历史，确保透明度和可复现性。
已验证的有效性：在CodeContests-O上微调Qwen2.5-7B模型，在LiveCodeBench（Pass@1）上带来了 9.52% 的性能提升。

性能对比

测试用例质量（TPR/TNR）

数据集	TPR (%)	TNR (%)
CodeContests	85.18	81.52
CodeContests+ (5x)	83.84	89.35
CodeContests-O (iter 3)	89.37	90.89

下游强化学习性能（LiveCodeBench Pass@1）

数据集	Pass@1 (%)
CodeContests	27.10
CodeContests+ (5x)	29.61
CodeContests-O	34.57

技术细节

生成器程序：使用C++和testlib.h库实现。数据集提供了简化的testlib.h版本（https://huggingface.co/datasets/caijanfeng/CodeContests-O/blob/main/assets/testlib.h）以确保兼容性。
检查器程序：基于逻辑一致性进行验证，支持多解问题。直接采用CodeContests+提供的检查器，未进行迭代精炼。
命令格式：遵循shell语法和testlib风格的参数。
执行环境：使用了增强版的ByteDance SandboxFusion（https://github.com/cai-jianfeng/SandboxFusion）。

使用许可

许可证：Apache License 2.0

引用

如需在研究中使用本数据集，请引用相关论文： bibtex @misc{cai2026codecontestsopoweringllmsfeedbackdriven, title={CodeContests-O: Powering LLMs via Feedback-Driven Iterative Test Case Generation}, author={Jianfeng Cai and Jinhua Zhu and Ruopei Sun and Kangwen Zhao and Dongyun Xue and Mingxiao Feng and Wengang Zhou and Houqiang Li}, year={2026}, eprint={2601.13682}, archivePrefix={arXiv}, primaryClass={cs.SE}, url={https://arxiv.org/abs/2601.13682}, }

搜集汇总

数据集介绍

构建方式

在竞争性编程领域，高质量测试用例的构建对于评估算法模型至关重要。CodeContests-O数据集采用一种反馈驱动的迭代框架进行构建，该框架起始于对问题描述的深度分析，以识别输入输出约束及潜在算法陷阱。随后，基于生成器-验证器范式，合成初始测试用例生成程序，并制定执行命令。通过将生成的测试用例在正确与错误解决方案池中执行，收集误报与漏报等反馈信息，进而指导生成器与命令的迭代优化。这一闭环过程持续进行，直至达到预设的真实正例率与真实负例率阈值，从而确保测试用例具备卓越的保真度与判别力。

特点

该数据集的核心特征体现在其经过迭代精炼的高质量测试用例上，其真实正例率与真实负例率分别达到89.37%与90.89%，显著超越了同类基准。数据集完整保留了生成器、检查器、执行命令以及完整的迭代历史，为研究提供了高度的透明性与可复现性。此外，每个问题平均包含约40个测试用例，并基于大量正确与错误解决方案进行评估，确保了测试覆盖的广度与深度。这些特征共同使得该数据集成为训练和评估推理中心大语言模型的可靠验证信号源。

使用方法

使用该数据集时，可通过Hugging Face的datasets库直接加载，并访问训练集、测试集和验证集等不同划分。数据集中每个样本包含问题名称、描述、最终合成的边界测试用例以及完整的迭代历史记录。研究人员可以便捷地提取测试用例的输入输出对，用于模型训练或评估。同时，通过分析迭代历史中的生成命令、替换命令以及生成器更新记录，能够深入探究测试用例的优化过程与模型行为，为算法改进提供实证依据。

背景与挑战

背景概述

在大型语言模型（LLM）推动代码生成与推理能力发展的背景下，高质量的编程评测数据集成为模型训练与评估的关键。CodeContests-O数据集于2026年由相关研究团队构建，其核心研究问题聚焦于如何通过系统化的反馈驱动迭代机制，生成具有高保真度与强判别力的测试用例，以可靠验证LLM在竞争性编程问题上的推理性能。该数据集基于CodeContests与CodeContests+进行扩展，通过引入闭环的测试用例精炼流程，显著提升了测试用例的真实阳性率与真实阴性率，对增强代码生成模型的鲁棒性与泛化能力产生了重要影响。

当前挑战

该数据集旨在解决竞争性编程领域中测试用例自动生成的挑战，其核心难题在于如何生成既能准确反映问题正确解（高保真度）、又能有效识别错误解（高判别力）的测试数据。构建过程中的主要挑战包括：设计并实现一个能够基于执行反馈进行根因分析、并动态调整生成器与命令的迭代框架；确保生成的大量测试用例（每个问题平均约40个）在多样性与边界条件覆盖上的质量；以及在整个精炼过程中维持计算效率，处理超过千万次解决方案执行的庞大反馈数据。

常用场景

经典使用场景

在编程竞赛与算法研究领域，CodeContests-O数据集以其高质量、迭代精炼的测试用例，成为训练和评估大型语言模型（LLMs）推理能力的核心资源。该数据集通过反馈驱动的迭代框架，系统性地生成、验证并优化测试用例，确保了高达89.37%的真阳性率和90.89%的真阴性率。经典使用场景包括利用其丰富的测试案例对LLMs进行微调，以提升模型在复杂编程问题上的代码生成与逻辑推理性能，例如在LiveCodeBench基准测试中实现9.52%的Pass@1提升。

衍生相关工作

CodeContests-O的发布催生了一系列围绕代码生成与测试案例优化的衍生研究。基于其迭代框架，学者们探索了更高效的反馈循环机制，以进一步提升测试案例的生成效率。同时，该数据集启发了对多语言编程问题评估的扩展工作，促进了跨语言代码理解模型的发展。在基准测试方面，其高质量测试案例被整合到CodeXGLUE等评估体系中，为模型性能提供了更可靠的衡量标准，推动了整个代码智能领域的进步。

数据集最近研究