codeparrot/codecomplex
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/codecomplex
下载链接
链接失效反馈官方服务:
资源简介:
CodeComplex数据集包含4200个由人类程序员提交到编程竞赛的Java代码及其复杂度标签,这些标签由一组算法专家标注。数据集主要用于文本生成任务,特别是语言建模。数据集中包含的字段有源代码(src)、复杂度(complexity)、问题名称(problem)和问题来源(from)。复杂度字段有7个类别,每个类别大约有500个代码。数据集仅包含训练集,且数据来源于CodeForces。
提供机构:
codeparrot
原始信息汇总
CodeComplex Dataset 概述
数据集描述
CodeComplex 数据集包含 4,200 个由人类程序员提交至编程竞赛的 Java 代码及其由算法专家标注的复杂度标签。
数据结构
- 训练集:包含 4517 条数据。
- 特征:
src:Java 源代码。complexity:程序复杂度,分为 7 类:常数、线性、二次、三次、对数、nlog(n) 和 NP-hard。problem:问题名称。from:问题来源。
数据实例
python {src: import java.io.*; import java.math.BigInteger; import java.util.InputMismatchException;..., complexity: quadratic, problem: 1179_B. Tolik and His Uncle, from: CODEFORCES}
数据字段
src:字符串类型,表示 Java 源代码。complexity:字符串类型,表示程序复杂度。problem:字符串类型,表示问题名称。from:字符串类型,表示问题来源。
数据分割
数据集仅包含训练分割。
数据集创建
作者首先从 CodeForces 收集 Java 问题和解决方案代码,由经验丰富的人类标注者根据时间复杂度对每个代码进行标注。随后,不同的编程专家验证了人类标注者分配的每个数据的类别。
引用信息
@article{JeonBHHK22, author = {Mingi Jeon and Seung-Yeop Baik and Joonghyuk Hahn and Yo-Sub Han and Sang-Ki Ko}, title = {{Deep Learning-based Code Complexity Prediction}}, year = {2022}, }



