Deep-Bench
收藏arXiv2025-02-26 更新2025-02-28 收录
下载链接:
https://anonymous.4open.science/r/DL-Bench-D65E/
下载链接
链接失效反馈官方服务:
资源简介:
Deep-Bench是一个专为函数级别的深度学习代码生成设计的基准数据集。该数据集由30个GitHub仓库中超过2000个原始数据点筛选而来,包含520个AI和DL数据点。数据集根据深度学习流程阶段、机器学习任务类型和输入数据类型三个维度进行分类,旨在为深度学习代码生成研究提供深入见解。
Deep-Bench is a benchmark dataset specifically designed for function-level deep learning code generation. This dataset is curated from over 2,000 original data points across 30 GitHub repositories, containing 520 AI and DL data points. It is categorized along three dimensions: deep learning workflow stages, machine learning task types, and input data types, and aims to provide in-depth insights for deep learning code generation research.
提供机构:
未知
创建时间:
2025-02-26
搜集汇总
数据集介绍

构建方式
Deep-Bench 数据集的构建过程分为两个主要阶段:原始数据提取和标签化过程。原始数据提取涉及从 GitHub 存储库中爬取数据,并筛选出高质量的深度学习相关函数及其测试用例。首先,从具有最高星级的深度学习相关 GitHub 存储库中筛选出 160 个高质量的候选深度学习项目,并从中提取测试文件和测试用例。然后,通过静态分析收集所有待测试函数的定义,形成 Deep-Bench 的原始数据基础。标签化过程包括使用大型语言模型(LLM)生成初始的代码生成提示,并由人工审核员进行筛选和修改,以确保每个函数的高度相关性和技术正确性。最后,根据三个选择的类别(深度学习/机器学习流水线阶段、机器学习任务类型和输入类型)对每个代码样本进行手动标签化。
特点
Deep-Bench 数据集具有以下特点:首先,它涵盖了深度学习流水线的所有阶段,包括预处理、模型构建、训练、推理和评估。其次,它包含了各种机器学习任务,包括分类、回归、目标检测、图像分割、时间序列预测、推荐和通用任务。第三,它包含了多种输入数据类型,包括文本、图像和结构化数组。此外,每个数据点都伴随有至少三个测试用例,以确保代码的正确性和可执行性。最后,Deep-Bench 提供了一个详细的分类系统,用于分析和评估 LLM 生成深度学习代码的能力。
使用方法
使用 Deep-Bench 数据集的方法包括以下步骤:首先,选择合适的 LLM 进行代码生成任务。然后,根据数据集提供的标签和分类,选择合适的代码生成提示。接着,使用 LLM 生成代码,并使用 Deep-Bench 提供的测试用例进行评估。最后,根据评估结果,分析 LLM 的性能和存在的问题,并进一步改进代码生成技术和 LLM 模型。Deep-Bench 数据集提供了详细的文档和说明,以便研究人员和开发人员能够轻松使用和理解数据集。
背景与挑战
背景概述
随着深度学习(DL)在计算机视觉、自然语言处理等领域取得革命性的进展,DL工作流程的复杂性为系统开发带来了挑战。大型语言模型(LLM),如GPT、Claude、Llama、Mistral等,作为DL代码生成的有力工具应运而生。然而,现有的基准数据集如DS1000等,主要关注小型DL代码片段,缺乏对DL全流程的全面覆盖。为了解决这一问题,研究人员提出了Deep-Bench数据集,这是一个专为函数级DL代码生成设计的基准数据集,它根据预处理、模型构建和训练等阶段,以及分类、回归、推荐等任务,以及表格、图像和文本等输入数据类型,对DL问题进行分类。Deep-Bench数据集的引入为评估LLM在DL代码生成方面的性能提供了新的视角,并为LLM在DL领域的应用提供了宝贵的洞见。
当前挑战
Deep-Bench数据集的构建过程中,研究人员面临的主要挑战包括:1) 现有基准数据集的局限性,主要关注小型DL代码片段,缺乏对DL全流程的全面覆盖;2) 构建过程中,如何从大量GitHub仓库中提取高质量的DL代码实例,并进行有效的标签分类;3) 评估LLM在DL代码生成方面的性能时,如何确保评估的准确性和可靠性。此外,Deep-Bench数据集的引入也揭示了LLM在DL代码生成方面的挑战,包括对复杂逻辑和算术要求的误解,以及数据结构问题,如张量不匹配和维度错误。这些问题表明,LLM在DL代码生成方面仍存在较大的改进空间。
常用场景
经典使用场景
Deep-Bench数据集是针对深度学习代码生成的功能级别基准数据集。它将深度学习问题分为三个关键方面:包括预处理、模型构建和训练在内的阶段;包括分类、回归和推荐在内的任务;以及包括表格、图像和文本在内的输入数据类型。Deep-Bench旨在解决现有基准数据集如DS1000的局限性,这些数据集主要关注与预处理/后处理任务相关的小型深度学习代码片段,缺乏对完整深度学习管道的全面覆盖,包括不同的深度学习阶段和输入数据类型。
解决学术问题
Deep-Bench数据集解决了现有深度学习代码生成基准数据集的局限性问题,提供了更全面、更复杂的数据集。它有助于研究人员更好地理解大型语言模型(LLMs)在生成深度学习代码时的性能和挑战,并为改进LLMs的深度学习代码生成能力提供了有价值的见解。Deep-Bench数据集还揭示了不同类别(如深度学习阶段和任务)之间性能的重大差异,这些差异为改进LLMs的深度学习代码生成技术提供了潜在的方向。
衍生相关工作
Deep-Bench数据集的引入引发了大量相关工作,包括对LLMs在生成深度学习代码时的性能和挑战的进一步研究,以及开发更有效的代码生成技术和方法的尝试。此外,Deep-Bench数据集还为开发更精确的代码生成模型提供了基础,以帮助非软件开发的领域专家构建深度学习系统。Deep-Bench数据集的引入为深度学习代码生成领域的研究和应用开辟了新的方向。
以上内容由遇见数据集搜集并总结生成



