Codehacks

Name: Codehacks
Creator: Simula Research Laboratory
Published: 2025-03-30 22:50:03
License: 暂无描述

arXiv2025-03-30 更新2025-04-03 收录

下载链接：

https://doi.org/10.6084/m9.figshare.24773754

下载链接

链接失效反馈

官方服务：

资源简介：

Codehacks数据集是由Simula Research Laboratory创建的，包含5578个编程问题的288617个由用户提交的‘破解’（即错误诱导测试用例），以及这些问题对应的自然语言描述和2196个可被相应破解破坏的提交源代码。该数据集旨在为软件测试和测试生成提供有价值的学习资源，特别是对于由大型语言模型合成的代码的质量评估。

The Codehacks dataset was developed by Simula Research Laboratory. It contains 288,617 user-submitted "hack" submissions (i.e., error-inducing test cases) for 5,578 programming problems, alongside the natural language descriptions of these problems and 2,196 submitted source code instances that can be compromised by the corresponding hacks. This dataset aims to serve as a valuable learning resource for software testing and test generation, particularly for quality assessment of code synthesized by large language models (LLMs).

提供机构：

Simula Research Laboratory

创建时间：

2025-03-30

搜集汇总

数据集介绍

构建方式

Codehacks数据集的构建依托于Codeforces在线评测平台，通过系统化地收集用户在编程竞赛中提交的“hack”测试用例。这些测试用例能够揭示已通过标准测试集的代码中的潜在错误。研究团队利用Codeforces API获取了1,928场竞赛中的黑客尝试记录，并通过公开爬虫提取了相关编程问题的自然语言描述。最终，数据集整合了288,617个成功hack案例、2,196份可被攻破的源代码提交以及5,578个编程问题的完整描述，形成了一套结构化的对抗性测试资源。

特点

该数据集的核心价值在于其独特的对抗性测试属性。所有hack案例均由人类参赛者设计，能有效暴露代码合成模型（如LLMs）生成的程序在边界条件下的缺陷。数据集覆盖了动态规划、数学算法、贪心策略等28种编程问题类型，难度跨度从800至3500，呈现多维度分布特征。尤为重要的是，其中31.4%的hack案例能诱导错误输出，9.1%可触发超时错误，为测试生成研究提供了高质量的负样本。

使用方法

该数据集主要服务于代码合成模型的鲁棒性评估与测试生成研究。使用者可通过自然语言问题描述检索对应hack案例，构建对抗性测试集验证生成代码的健壮性。在机器学习领域，可微调语言模型学习hack案例的模式，实现自动生成边界测试输入的功能。研究还建议采用对抗训练框架，将数据集同时用于代码生成器和测试生成器的迭代优化，形成双向增强的闭环系统。所有数据均以结构化格式存储，支持通过问题ID或标签进行高效检索与分析。

背景与挑战

背景概述

Codehacks数据集由挪威Simula研究实验室的Max Hort和Leon Moonen等人于2025年提出，旨在为大型语言模型生成的代码提供对抗性测试支持。该数据集从Codeforces在线编程竞赛平台收集了288,617个成功破解的测试案例，涵盖5,578个编程问题及2,196个被破解的提交代码。其核心研究问题聚焦于解决传统测试套件可能遗漏的边界情况，为代码合成领域的可靠性验证提供了重要数据基础。该数据集的创新性在于首次系统化利用了编程竞赛中的人类对抗性测试智慧，对提升AI生成代码的鲁棒性评估具有显著意义。

当前挑战

Codehacks数据集面临的主要挑战体现在两个方面：领域问题层面，传统测试套件存在覆盖盲区导致虚假负例，而人工构造边界测试案例成本高昂；数据构建层面，Codeforces平台测试套件质量参差不齐，部分破解输入因技术限制被截断丢失，且需跨数据集匹配源代码与破解案例。此外，编程问题的难度分布不均导致数据代表性可能存在偏差，这些问题为数据集的全面性和可靠性带来了挑战。

常用场景

经典使用场景

在编程竞赛和自动化代码生成的背景下，Codehacks数据集通过收集来自Codeforces平台的成功破解案例，为研究者和开发者提供了一个丰富的资源库。这些破解案例揭示了传统测试套件未能覆盖的代码缺陷，尤其在评估大型语言模型生成的代码时显得尤为重要。数据集中的自然语言描述和源代码进一步增强了其在多模态研究中的适用性。

解决学术问题

Codehacks数据集有效解决了软件测试领域中的两个核心问题：测试套件的不足和虚假阴性问题。通过提供大量真实世界中的失败诱导测试案例，该数据集为改进测试生成技术、提升代码合成质量提供了实证基础。尤其对于基于大型语言模型的代码生成系统，这些边缘案例能够显著提高其鲁棒性评估的准确性。

衍生相关工作

该数据集已催生多项创新研究，包括但不限于：基于对抗性测试的代码生成模型微调、测试用例优先级排序算法的改进，以及编程竞赛平台的智能辅助系统开发。相关经典工作如AlphaCode的评估框架改进和EvalPlus基准测试工具的增强，都直接受益于Codehacks提供的丰富测试案例资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集