MLDebugging

github2025-06-16 更新2025-06-20 收录

下载链接：

https://github.com/hjyTsuki/MLDebugging

下载链接

链接失效反馈

官方服务：

资源简介：

MLDebugging: 跨多库场景的代码调试基准测试数据集

MLDebugging: A Benchmark Test Dataset for Cross-library Code Debugging

创建时间：

2025-05-23

原始信息汇总

MLDebugging数据集概述

数据集基本信息

数据集名称: MLDebugging
关联论文: MLDebugging: Towards Benchmarking Code Debugging Across Multi-Library Scenarios (ACL 2025 Findings)
存储库类型: 代码仓库

数据获取方式

下载平台: Hugging Face
访问方式: 需通过huggingface-cli login登录后访问
加载代码示例: python from datasets import load_dataset ds = load_dataset("Tsukihjy/MLDeugging")

评估方法

依赖安装: bash pip install -r requirements-eval.txt
评估脚本路径: eval/evaluate.py
输入要求: 需提供结果文件路径(your/path/to/results.jsonl)

数据收集

构建流程示意图: 包含在assets/pipeline.png中

联系方式

GitHub问题: 通过仓库issue提交
邮件联系:
- JinYang Huang: hjy.tsuki@gmail.com
- Xiachong Feng: xiachongfeng1996@gmail.com
- Libo Qin: lbqin@csu.edu.cn

搜集汇总

数据集介绍

构建方式

在机器学习领域，多库环境下的代码调试一直是一项具有挑战性的任务。MLDebugging数据集的构建采用了系统化的流程，通过收集真实场景中跨多种机器学习库的代码错误案例，构建了一个具有代表性的基准测试集。该数据集涵盖了TensorFlow、PyTorch等主流框架的典型错误模式，并通过严格的筛选和标注流程确保数据质量。构建过程中特别注重错误类型的多样性和实际应用场景的覆盖度，为研究社区提供了一个可靠的评估平台。

特点

MLDebugging数据集最显著的特点是专注于多库环境下的代码调试问题，这在现有数据集中较为罕见。该数据集包含丰富的错误类型和复杂的交互场景，能够全面评估模型在不同框架间的调试能力。数据样本经过精心设计，既包含常见的基础错误，也涵盖了需要深入理解的复杂案例。每个样本都配有详细的元数据标注，包括错误类型、影响范围和修复建议，为研究者提供了充分的分析依据。数据集规模适中但质量精良，特别适合用于机器学习调试算法的开发和评估。

使用方法

使用MLDebugging数据集需要首先通过Hugging Face平台进行认证访问，这确保了数据使用的规范性和可追溯性。数据集加载过程简洁高效，只需调用标准接口即可获取完整数据。评估阶段提供了专门的脚本工具，支持研究者快速验证模型性能。使用该数据集时建议重点关注跨库错误检测能力，通过对比不同框架下的错误修复效果来全面评估算法性能。数据集配套的评估指标设计科学，能够客观反映模型在实际调试任务中的表现。

背景与挑战

背景概述

MLDebugging数据集由JinYang Huang、Xiachong Feng和Libo Qin等研究人员于2025年构建，旨在解决多库环境下机器学习代码调试的标准化评估问题。该数据集作为ACL 2025 Findings的研究成果，填补了跨库调试场景缺乏基准测试工具的空白。在机器学习工程实践中，开发者经常需要整合TensorFlow、PyTorch等不同框架的代码，而现有调试工具往往局限于单一库环境。该数据集的建立为量化评估调试算法的泛化性能提供了重要基础设施，推动了自动化程序修复领域的方法创新。

当前挑战

MLDebugging数据集面临的核心挑战体现在问题维度和构建维度。在问题维度，多库代码调试需要克服不同框架API差异带来的语义鸿沟，这对模型的跨库泛化能力提出极高要求。构建维度上，数据收集需平衡真实项目代码与可控错误注入的关系，既要保证错误的典型性又要维持原始代码风格。标注过程涉及多编程语言语法树的解析与转换，技术复杂度显著高于单库调试场景。如何建立统一的跨库调试评估指标体系，也是该数据集需要持续优化的方向。

常用场景

经典使用场景

在机器学习代码调试领域，MLDebugging数据集为研究人员提供了一个跨多库场景的标准化评测平台。该数据集通过模拟真实开发环境中常见的代码错误模式，支持对调试算法在TensorFlow、PyTorch等不同框架下的泛化能力进行系统性评估。其精心设计的错误类型分布和跨库特性，使得该数据集特别适合用于测试自动化调试工具在处理复杂依赖关系时的鲁棒性。

解决学术问题

MLDebugging数据集有效解决了机器学习代码调试研究中缺乏标准化基准的难题。通过覆盖语法错误、逻辑缺陷和库版本冲突等多维度问题，该数据集为评估调试算法的综合性能提供了科学依据。其构建方法显著提升了跨库调试任务的可重复性，推动了程序修复、异常检测等研究方向的方法创新与比较。

衍生相关工作

该数据集的发布催生了多个具有影响力的后续研究，包括基于注意力机制的跨库错误定位模型、结合符号执行的混合调试系统等。在ACL等顶会论文中，研究者们频繁引用该数据集作为评估基准，其构建方法论也为其他领域调试数据集的创建提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集