MLDebugging
收藏arXiv2025-06-15 更新2025-06-22 收录
下载链接:
https://github.com/hjyTsuki/MLDebugging
下载链接
链接失效反馈官方服务:
资源简介:
MLDebugging是一个全面的多库代码调试基准,旨在评估在多库Python代码中的调试挑战。它包含了126个不同的Python库,覆盖了多种多库代码问题,分为七种类型。该数据集包含1175个样本,用于评估当前主流的开源和闭源大型语言模型在多库场景下的代码调试能力。
提供机构:
中央南大学计算机科学与工程学院, 中国
创建时间:
2025-06-15
搜集汇总
数据集介绍

构建方式
在软件工程领域,代码调试是确保程序正确性的关键环节。MLDebugging数据集的构建采用了多阶段流程:首先从BigCodeBench收集涉及多库的真实编程任务代码片段,随后利用GPT-4o生成1,038个包含多库交互的代码样本,通过测试用例筛选出609个存在缺陷的样本。为确保数据质量,研究团队采用AST分析技术捕捉库间变量传递关系,并设计七类错误分类框架,最终通过人工校验和平衡策略将各类错误样本量标准化至200例左右。
特点
作为首个专注于多库调试场景的基准数据集,MLDebugging涵盖126个常用Python库的1,175个样本,其显著特征体现在三维度:广度上覆盖计算、加密、网络等八大应用场景;深度上包含类型不匹配、参数配置错误等七类典型错误;真实度方面通过StackOverflow对比验证显示,其错误分布与真实场景的余弦相似度达0.731,显著优于同类基准。数据集特别设计了包含测试用例、运行时错误信息的结构化元数据,为模型调试提供多维反馈支持。
使用方法
该数据集支持两种典型应用范式:评估模式下,研究者可加载JSON格式的样本数据(含错误代码、测试用例及参考解答),通过模型生成的修复代码在测试用例上的通过率量化性能;研究模式下,可利用丰富的错误分类标签进行细粒度分析,例如探究模型在跨库变量传递(DTI类)与功能误解(RM类)等不同错误类型上的表现差异。数据集配套提供AST分析工具链,支持开发者深入理解多库代码的交互逻辑。
背景与挑战
背景概述
MLDebugging数据集由中南大学、香港大学、哈尔滨工业大学等机构的研究团队于2025年6月提出,旨在解决多库场景下的代码调试问题。该数据集包含126个Python库的1,175个样本,覆盖七种典型错误类型,填补了现有调试基准在真实多库环境中的空白。作为首个专注于多库交互调试的基准,MLDebugging通过系统化的错误注入和严格的质量控制,为评估大语言模型在复杂编程环境中的调试能力提供了标准化平台,推动了软件工程领域自动化调试技术的发展。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决多库代码特有的类型不匹配、数据转换错误等七类复杂问题,这些问题的诊断需跨库理解变量传递和函数交互;在构建过程中,挑战包括从BigCodeBench生成真实错误样本的可靠性控制、GPT-4o自动注入错误的质量验证,以及通过抽象语法树分析实现跨库变量追踪的技术难点。实验表明,即使最先进的大语言模型在该数据集上的最高调试通过率仅58.7%,凸显了多库调试对模型库知识深度和跨库推理能力的严苛要求。
常用场景
经典使用场景
在软件工程领域,代码调试一直是提高软件质量的关键环节。MLDebugging数据集作为首个专注于多库场景的调试基准,为研究者提供了一个评估大型语言模型(LLMs)在复杂多库环境下调试能力的标准化平台。该数据集覆盖了126个常用Python库,包含1,175个样本,涵盖了七种不同类型的多库代码问题,为研究多库调试提供了丰富的实验材料。
解决学术问题
MLDebugging数据集解决了当前研究中多库调试场景缺失的核心问题。传统调试数据集多局限于无库或单库环境,而真实软件开发往往涉及多库协同。该数据集通过系统化的多库错误分类(如类型不匹配、数据传递问题等)和平衡的样本分布,为学术界提供了研究多库交互错误的标准化测试床,尤其揭示了LLMs在库级推理和跨库变量处理等复杂场景中的能力短板。
衍生相关工作
MLDebugging推动了多模态调试研究的系列工作。基于其构建的DeepSeek-R1推理模型探索了强化学习在跨库调试中的应用;QwQ-Preview则利用该数据集开发了基于抽象语法树的多库依赖分析技术。后续研究如LibDebugger进一步扩展了库函数参数错误的自动化修复方法,这些工作共同构成了多库调试领域的技术图谱。
以上内容由遇见数据集搜集并总结生成



