custom-cruxeval-debug

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/giovannidemuri/custom-cruxeval-debug

下载链接

链接失效反馈

官方服务：

资源简介：

custom-cruxeval是一个基于CruxEval输出基准进行重构的数据集。它采用Mopsa风格对原始样本进行了重写，将每个示例转换为一个直线式的顶级Python程序。每个程序都包含具体的输入绑定，并将计算得到的最终值存储在名为`result`的变量中。数据集的主要数据文件为`custom-cruxeval-debug.jsonl`，构建元数据则存储在`custom-cruxeval-debug-summary.json`中。该数据集的任务类别为文本生成，内容语言为英语，遵循MIT许可证发布。

创建时间：

2026-05-12

搜集汇总

数据集介绍

构建方式

本数据集基于CruxEval输出基准测试，采用Mopsa风格的改写策略进行构建。具体而言，每个原始代码示例被重写为一个直列式顶级Python程序，其中嵌入了具体的输入绑定，并将最终计算结果存储于名为'result'的变量中。所有改写后的程序被整理为统一格式的JSON Lines文件，即'custom-cruxeval-debug.jsonl'，同时构建元数据被独立保存于'custom-cruxeval-debug-summary.json'文件中，确保数据可追溯性与完整性。

特点

本数据集的核心特点在于其简洁性与自包含性。每个样本均呈现为单一、连续的Python程序，无需额外上下文即可独立运行并验证结果。通过将输入绑定与输出变量内嵌于代码中，数据集消除了对外部状态或依赖的隐式假设，从而为程序错误定位与修复提供了清晰的基准。这种设计特别适用于评估代码理解与调试模型的性能，尤其是在需要精确追踪变量赋值与值传播的场景中。

使用方法

使用本数据集时，用户可直接读取'custom-cruxeval-debug.jsonl'文件中的每一行JSON对象。每个对象包含一个完整的Python程序字符串，用户可通过执行该程序检查'result'变量的最终值。建议的实践是，将程序输入至待评估的模型或分析工具中，要求其理解代码逻辑并识别潜在错误，随后与预期输出进行比对。此外，'custom-cruxeval-debug-summary.json'文件可用于验证数据版本的兼容性，确保实验的复现性与一致性。

背景与挑战

背景概述

在程序合成与代码理解领域，评估模型对细粒度执行语义的捕捉能力至关重要。CruxEval作为一项聚焦于Python程序输出预测的基准测试，近年受到了广泛关注。custom-cruxeval-debug数据集诞生于对该基准的重构需求之中，由Mopsa团队主导开发，旨在通过将原始CruxEval输出样例重新编排为连贯的顶层Python程序，并嵌入具体输入绑定与最终变量'result'的值，从而为模型提供更贴近实际执行流的训练与评估样本。该数据集采用MIT开源许可，以文本生成为核心任务，于公开后迅速成为衡量语言模型对代码动态行为理解深度的重要工具，推动了程序语义分析领域的进步。

当前挑战

该数据集所面临的挑战首先来源于领域问题本身的复杂性：代码执行预测要求模型不仅理解语法结构，更要精准追踪变量状态变化与控制流逻辑，而现有模型常在涉及长距离依赖或复杂副作用时出现严重偏差。在数据集构建层面，将散乱的输出样例转化为单一线性程序的过程，需要确保输入绑定的完备性与结果赋值的无歧义性，同时避免因重写引入人为误差。此外，如何设计评价指标以公平衡量模型在多样化的数值运算与数据结构操作上的表现，仍是亟待解决的难题，这对维持数据集在领域内的权威性与实用性构成了持续考验。

常用场景

经典使用场景

在程序合成与代码智能领域，custom-cruxeval-debug 数据集扮演着关键角色。它通过对 CruxEval 基准测试进行 Mopsa 风格的重写，将每个示例转化为带有具体输入绑定的直线型顶级 Python 程序，并以 result 变量存储最终值。这一设计使得该数据集最经典的使用场景是评估和调试代码生成模型，特别是在检验模型对简单函数调用和值传播的语义理解能力方面，为模型输出的准确性提供了细粒度的测试基准。

解决学术问题

该数据集主要解决了程序综合研究中一个核心难题——如何精确评估生成代码的执行正确性。传统的基于字符串匹配的评估方法难以捕捉语义等价性，而 custom-cruxeval-debug 通过固定输入输出对和程序结构，允许研究者直接检验模型是否真正理解代码逻辑而非表面模式。其意义在于为代码智能领域提供了一种去偏见的、可重复的评估范式，推动了学术界对神经符号方法、程序修复以及因果推理在代码生成中应用的深入研究。

衍生相关工作

基于 custom-cruxeval-debug 数据集，研究者已衍生出多个经典工作方向。例如，结合大型语言模型的程序修复框架利用该数据集的直线型程序进行少样本学习，探索了通过上下文示例进行错误定位与修正的零次学习范式。同时，在可解释人工智能领域，一些工作通过分析模型在该数据集上的失败案例，揭示了注意力机制在代码理解中的局限性，并据此提出了更鲁棒的代码表示学习方法。这些衍生工作共同丰富了代码智能的生态，促进了从数据到算法再到应用的完整闭环。

以上内容由遇见数据集搜集并总结生成