five

DSDBench

收藏
arXiv2025-03-28 更新2025-04-03 收录
下载链接:
https://github.com/KevinCL16/DSDBench
下载链接
链接失效反馈
官方服务:
资源简介:
DSDBench是由新加坡管理大学和清华大学联合创建的数据科学调试基准数据集。该数据集通过改编现有的数据科学任务基准,如DABench和MatPlotBench,构建了包含自动合成的多跳、多错误代码片段的逼真的数据科学调试任务。DSDBench包含1117个经过精心注释的样本,共有741个因果错误对和运行时错误消息。该数据集旨在评估大型语言模型在数据科学代码中的多跳错误跟踪和多错误检测的调试能力。

DSDBench is a data science debugging benchmark dataset jointly created by Singapore Management University and Tsinghua University. This dataset is constructed by adapting existing data science task benchmarks such as DABench and MatPlotBench, and includes realistic data science debugging tasks with automatically synthesized multi-hop and multi-error code snippets. DSDBench contains 1,117 meticulously annotated samples, with a total of 741 causal error pairs and runtime error messages. This dataset aims to evaluate the debugging capabilities of large language models in multi-hop error tracing and multi-error detection for data science code.
提供机构:
新加坡管理大学, 清华大学
创建时间:
2025-03-28
原始信息汇总

DSDBench 数据集概述

数据集简介

  • 名称: DSDBench
  • 定位: 首个系统性评估数据科学代码调试能力的基准测试
  • 核心目标: 评估和改进大语言模型(LLMs)在调试复杂数据科学代码问题中的表现
  • 发布时间: 2024年3月21日

数据集特点

  1. 错误类型

    • 真实数据科学工作流中的逻辑和运行时错误
    • 多跳调试场景(需追踪多个代码执行步骤)
    • 多错误场景(单个代码片段中存在并发错误)
  2. 数据规模

    • 1,117个经过精细标注的示例
    • 明确标注因果错误行和运行时错误消息

方法论

  1. 错误注入

    • 使用先进LLM技术系统性地引入真实运行时错误
  2. 错误标注

    • 利用运行时追踪工具(如snoop)准确捕捉错误间的因果关系
  3. 评估协议

    • 四维评估方法:
      • 原因行识别
      • 影响行识别
      • 错误类型识别
      • 错误消息识别

数据结构

  1. 主要文件

    • bench_final_annotation_single_error.jsonl (单错误场景)
    • bench_final_annotation_multi_errors.jsonl (多错误场景)
  2. 处理脚本

    • filter_non_executable_data.py (过滤不可执行数据)
    • find_multi_hop_data.py (识别多跳错误)
    • merge_final_annotation.py (合并标注)
    • merge_multiple_errors.py (生成多错误场景)

实验结果

模型 原因行准确率 影响行准确率 错误类型准确率 错误消息准确率
GPT-4o 39.0% 34.3% 30.6% 31.4%
Claude 3.5 43.7% 35.2% 36.3% 34.0%
Deepseek-V3 48.3% 34.5% 35.9% 34.7%

引用信息

bibtex @article{your2024dsdbench, title={Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors}, author={Your Name and co-authors}, journal={Conference/Journal Name}, year={2024} }

搜集汇总
数据集介绍
main_image_url
构建方式
DSDBench数据集的构建采用了多阶段流程,通过整合DABench、MatPlotBench和DSEval等现有数据科学基准中的任务,构建了一个包含1,117个样本的调试基准。构建过程包括数据收集、正确代码准备、错误注入和错误注释等环节。错误注入采用两种方法:基于强LLM(如GPT-4o)的错误注入和基于弱LLM(如Llama3.1-8B)的直接错误生成。随后通过动态执行和调试工具snoop捕获错误信息,并人工验证确保数据质量。
特点
DSDBench是首个专注于数据科学代码调试的基准,特别强调多跳错误追踪和多错误检测。数据集包含741个单错误样本和376个多错误样本,平均每个多错误样本包含2.87个错误。错误类型涵盖常见的Python运行时异常(如ValueError、TypeError等),并覆盖了pandas、matplotlib、sklearn等主流数据科学库。数据集的独特之处在于其真实性和复杂性,模拟了数据科学实践中常见的逻辑错误和运行时异常场景。
使用方法
DSDBench可用于评估大型语言模型在数据科学代码调试中的能力,特别是多跳错误追踪和多错误检测。使用时,模型接收包含错误的代码片段和自然语言问题描述,需要预测错误原因行、错误表现行以及运行时错误消息。评估指标包括错误行匹配准确率、错误类型匹配率和错误消息相似度。该基准支持零样本评估,也可用于研究模型在复杂调试场景中的自我修正能力。
背景与挑战
背景概述
DSDBench(Data Science Debugging Benchmark)是由新加坡管理大学和清华大学的研究团队于2025年推出的首个专注于数据科学代码调试的基准测试。该数据集旨在系统评估大语言模型(LLMs)在复杂数据科学代码中多跳错误追踪和多错误检测的能力。DSDBench基于现有数据科学任务基准(如DABench和MatPlotBench)构建,包含1,117个标注样本,涵盖741个因果错误对和运行时错误消息。该数据集的推出填补了当前调试基准在评估LLMs处理动态逻辑错误方面的空白,为未来更可靠的AI辅助数据科学研究提供了重要资源。
当前挑战
DSDBench面临的挑战主要包括两个方面:领域问题挑战和构建过程挑战。在领域问题方面,DSDBench致力于解决数据科学代码中复杂的运行时逻辑错误调试问题,特别是多跳错误追踪(需要模型通过多行代码追溯错误的根本原因)和多错误检测(需要模型同时识别和推理单个代码片段中的多个逻辑错误)。在构建过程中,研究人员面临的主要挑战包括:1)如何从现有基准中自动合成具有现实意义的多跳、多错误代码片段;2)如何准确标注错误原因和效果行对;3)如何确保注入的错误既具有挑战性又保持现实性;4)如何处理不同数据科学库(如pandas、NumPy、scikit-learn等)特有的错误模式。
常用场景
经典使用场景
DSDBench数据集在评估大型语言模型(LLMs)在数据科学代码调试中的表现方面具有经典应用场景。该数据集通过模拟真实的数据科学任务,如数据预处理、统计分析和机器学习模型训练,生成包含多跳和多错误逻辑的代码片段。研究人员利用DSDBench来测试LLMs在复杂数据科学代码中定位和修复运行时逻辑错误的能力,特别是在多错误并发和多跳错误追踪方面的表现。
衍生相关工作
DSDBench的推出催生了一系列相关研究工作。基于该数据集,研究者开发了更先进的代码调试代理,如结合案例推理的DSAgent和专注于数据可视化的MatPlotAgent。同时,DSDBench的评估方法也被其他基准测试借鉴,如PyBench和InfiAgent-DABench,推动了整个领域对LLMs动态调试能力的关注。这些衍生工作进一步拓展了AI在数据科学编程辅助中的应用边界。
数据集最近研究
最新研究方向
在数据科学领域,随着大型语言模型(LLMs)在代码生成和调试中的应用日益广泛,DSDBench数据集的推出填补了现有基准测试的空白,专注于评估LLMs在复杂数据科学代码中调试多跳和多错误逻辑运行时错误的能力。该数据集通过自动合成的多错误代码片段和详细的错误标注,为研究社区提供了一个关键资源,以系统评估和改进LLMs在数据科学代码调试中的表现。前沿研究方向包括探索LLMs在多错误并发调试中的性能瓶颈,以及如何通过增强模型的推理能力来提高其在复杂数据科学工作流中的调试准确性。DSDBench的出现不仅推动了AI辅助数据科学工具的可靠性研究,还为未来开发更智能的代码调试助手奠定了基础。
相关研究论文
  • 1
    Why Stop at One Error? Benchmarking LLMs as Data Science Code Debuggers for Multi-Hop and Multi-Bug Errors新加坡管理大学, 清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作