DLCodeEval

Name: DLCodeEval
Creator: 上海交通大学计算机科学与工程系
Published: 2025-04-21 21:09:25
License: 暂无描述

arXiv2025-04-21 更新2025-04-23 收录

下载链接：

http://arxiv.org/abs/2504.15080v1

下载链接

链接失效反馈

官方服务：

资源简介：

DLCodeEval是一个专为深度学习代码生成任务设计的基准数据集，由开源项目构建而成，用于评估深度学习代码生成方法的效果。

DLCodeEval is a benchmark dataset specifically designed for deep learning code generation tasks, constructed from open-source projects, and used to evaluate the performance of deep learning code generation methods.

提供机构：

上海交通大学计算机科学与工程系

创建时间：

2025-04-21

搜集汇总

数据集介绍

构建方式

DLCodeEval数据集的构建基于Meta Kaggle Code数据集中的Python和R语言笔记本文件，通过筛选.ipynb扩展名的文件并保留使用TensorFlow和Keras框架的笔记本。随后，利用大型语言模型（LLM）提取和总结用户需求及解决方案计划，形成包含用户需求、代码和解决方案计划的并行语料库。最终数据集包含3,950个深度学习笔记本，确保了数据的多样性和复杂性。

特点

DLCodeEval数据集专注于深度学习代码生成任务，其特点在于代码长度显著超过一般用途代码生成数据集，平均代码行数达331行，反映了深度学习项目的复杂性。数据集涵盖了从数据预处理到模型评估的完整深度学习工作流程，并提供了结构化的解决方案计划，为代码生成任务提供了全局指导。

使用方法

DLCodeEval数据集可用于评估深度学习代码生成模型的性能。研究人员可以通过该数据集测试模型在生成复杂深度学习项目时的准确性和效率。使用该数据集时，建议结合自动化评估指标（如CodeBLEU）和人工评估（如代码合规性、实用性和符合编程惯例的程度）来全面评估生成代码的质量。

背景与挑战

背景概述

DLCodeEval数据集由上海交通大学计算机科学学院的陈谢、焦明胜、顾晓东和沈北军团队于2025年创建，旨在解决深度学习项目代码生成的复杂性问题。该数据集作为深度学习代码生成的基准，通过整合开源项目中的高质量代码样本，构建了一个包含3,950个深度学习笔记本的平行语料库。其核心研究问题聚焦于如何利用大型语言模型（LLMs）生成结构复杂、功能完整的深度学习项目代码，从而降低开发者的技术门槛。DLCodeEval的推出显著推动了自动化代码生成领域的发展，特别是在深度学习这一专业领域的应用，为后续研究提供了重要的评估标准和数据支持。

当前挑战

DLCodeEval数据集面临的挑战主要体现在两个方面。首先，在领域问题层面，深度学习项目代码具有结构复杂、函数冗长和高度依赖领域知识的特点，这使得传统的代码生成方法难以有效应对。大型语言模型在生成长代码段时性能显著下降，且难以维持上下文一致性，导致生成的代码往往无法完全满足用户需求。其次，在构建过程中，数据集的创建需要从海量开源项目中筛选和整理高质量的深度学习代码，并确保其与用户需求的对应关系准确无误。此外，为了避免数据泄露，还需对测试数据进行严格的时间过滤和知识检测，这些步骤都增加了数据集构建的复杂性和难度。

常用场景

经典使用场景

在深度学习代码生成领域，DLCodeEval数据集被广泛用于评估和优化基于大语言模型（LLM）的代码生成系统。该数据集通过提供结构化的深度学习项目需求与对应代码的平行语料，为研究者提供了验证模型在复杂代码链生成任务中性能的基准。其典型应用场景包括测试模型在生成超过300行的深度学习项目时的上下文连贯性、领域知识整合能力以及代码功能完整性。

实际应用

在实际工业应用中，DLCodeEval支撑的生成系统显著降低了深度学习开发门槛。例如在计算机视觉领域，开发者仅需输入'构建暴力图像分类模型'的自然语言需求，系统即可自动生成包含数据预处理、InceptionV3-LSTM混合架构、训练流水线等完整代码，平均代码量达331行。该技术已应用于Kaggle竞赛解决方案生成、教育领域深度学习教学辅助等场景，使非专家用户也能快速实现原型开发。

衍生相关工作

基于DLCodeEval的评估框架，研究者已衍生出多项创新工作：在方法层面，出现了融合神经符号系统的DL-Coder、采用动态模板检索的NeuroTemplate等改进方案；在评估体系方面，催生了面向多模态深度学习项目的MMCodeEval基准；在应用扩展上，启发了将规划引导生成范式迁移至科学计算代码生成的SciGen系统。这些工作共同推动了领域内代码生成技术从片段级到项目级的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集