debugbench_pnyx

Hugging Face2026-02-26 更新2026-02-27 收录

下载链接：

https://huggingface.co/datasets/PNYX/debugbench_pnyx

下载链接

链接失效反馈

官方服务：

资源简介：

PNYX-DebugBench 数据集基于 Rtian/DebugBench 数据集，包含原始数据集的所有字段，并新增了 initialization_code、test_code 和 stderr 字段。数据集按语言配置（如 python3）划分，每个语言配置下又按难度级别（easy、medium、hard）进行分割。该数据集适用于文本生成和问答任务，主要用于代码调试和测试。数据集中的示例经过测试，部分原始示例因无法转换为所需格式或存在错误而被排除。数据集的使用示例展示了如何通过 hf_evaluate 进行测试。

创建时间：

2026-02-20

搜集汇总

数据集介绍

构建方式

在代码调试与程序修复领域，PNYX-DebugBench数据集基于Rtian/DebugBench构建，通过系统化筛选与增强处理形成。原始数据经过严格测试与转换，剔除了无法转换为指定格式、存在执行错误或测试不通过的样本，确保了数据质量。数据集按编程语言配置，并依据难度级别划分为简单、中等与困难三个子集，每个样本均补充了初始化代码、测试代码及标准错误输出等关键字段，从而构建出一个结构清晰、适用于多层次评估的基准测试集合。

特点

该数据集的核心特点在于其多维度的代码调试信息集成与难度分级体系。每个样本不仅包含原始的缺陷代码与解决方案，还提供了执行所需的初始化代码、基于示例衍生的测试断言以及标准错误输出，全面覆盖了代码执行与验证环节。通过将样本按简单、中等与困难三个级别划分，数据集能够适配不同能力模型的评估需求，支持渐进式的性能测试。此外，数据经过严格清洗，仅保留可执行且测试有效的样本，增强了评估的可靠性与一致性。

使用方法

使用PNYX-DebugBench数据集时，研究人员可通过Hugging Face平台加载特定语言配置，如Python3，并访问不同难度级别的子集。借助hf_evaluate工具，用户能够执行代码评估，通过组合初始化代码、解决方案与测试代码进行自动化测试，计算通过率等指标。数据集的设计便于集成到模型训练与基准测试流程中，为代码生成与调试模型的性能评估提供标准化框架，同时需遵循访问协议，确保数据不被泄露至训练语料库。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码调试能力是衡量智能体编程水平的关键指标。DebugBench_PNYX数据集由PNYX团队基于Rtian/DebugBench构建，于近年发布，旨在系统评估大型语言模型在代码调试任务上的性能。该数据集聚焦于程序错误检测与修复的核心研究问题，通过提供包含错误代码、测试用例及执行环境的标准基准，推动了自动化代码修复与智能编程助手技术的发展，对提升软件质量与开发效率具有显著影响力。

当前挑战

该数据集致力于解决代码调试领域的核心挑战，即如何准确识别并修正程序中的逻辑错误、语法错误及运行时异常。构建过程中面临多重困难：原始数据中部分示例因无法转换为可执行测试格式或存在代码错误而被剔除，需确保测试代码的可靠性与一致性；同时，需平衡不同难度等级（简单、中等、困难）的样本分布，以全面评估模型在不同复杂度错误上的调试能力。这些挑战要求数据集在保持真实编程场景代表性的同时，具备严格的标准化与可复现性。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，代码调试是提升程序质量的关键环节。DebugBench_pnyx数据集通过提供包含错误代码、测试代码及标准错误输出的结构化示例，为自动化代码调试与修复研究奠定了坚实基础。该数据集最经典的使用场景在于评估和训练大型语言模型在代码生成与错误定位任务上的性能，研究者可借助其分级难度设置，系统性地检验模型在不同复杂度编程问题中的调试能力，从而推动智能编程助手技术的演进。

解决学术问题

该数据集有效应对了代码智能领域长期存在的若干挑战。其一，它通过标准化的测试框架解决了代码正确性评估缺乏统一基准的问题，为模型性能提供了可量化的比较依据。其二，数据集涵盖从简单到困难的多层次错误类型，有助于探究模型处理不同语义和逻辑缺陷的泛化能力。这些贡献显著促进了自动化程序修复、代码质量分析等研究方向的发展，并为构建更可靠的AI编程工具提供了实证支持。

衍生相关工作

围绕DebugBench_pnyx数据集，学术界已衍生出一系列经典研究工作。这些工作主要集中于利用序列到序列模型或代码预训练模型进行错误定位与自动修复，例如基于Transformer架构的调试模型在数据集上实现了显著的性能提升。同时，部分研究探索了结合程序分析技术与深度学习的方法，以增强模型对复杂代码逻辑的理解。这些成果不仅丰富了代码智能领域的技术体系，也为后续更精细化的调试基准构建提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集