five

codeparrot/codecomplex

收藏
Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/codeparrot/codecomplex
下载链接
链接失效反馈
官方服务:
资源简介:
CodeComplex数据集包含4200个由人类程序员提交到编程竞赛的Java代码及其复杂度标签,这些标签由一组算法专家标注。数据集主要用于文本生成任务,特别是语言建模。数据集中包含的字段有源代码(src)、复杂度(complexity)、问题名称(problem)和问题来源(from)。复杂度字段有7个类别,每个类别大约有500个代码。数据集仅包含训练集,且数据来源于CodeForces。
提供机构:
codeparrot
原始信息汇总

CodeComplex Dataset 概述

数据集描述

CodeComplex 数据集包含 4,200 个由人类程序员提交至编程竞赛的 Java 代码及其由算法专家标注的复杂度标签。

数据结构

  • 训练集:包含 4517 条数据。
  • 特征
    • src:Java 源代码。
    • complexity:程序复杂度,分为 7 类:常数、线性、二次、三次、对数、nlog(n) 和 NP-hard。
    • problem:问题名称。
    • from:问题来源。

数据实例

python {src: import java.io.*; import java.math.BigInteger; import java.util.InputMismatchException;..., complexity: quadratic, problem: 1179_B. Tolik and His Uncle, from: CODEFORCES}

数据字段

  • src:字符串类型,表示 Java 源代码。
  • complexity:字符串类型,表示程序复杂度。
  • problem:字符串类型,表示问题名称。
  • from:字符串类型,表示问题来源。

数据分割

数据集仅包含训练分割。

数据集创建

作者首先从 CodeForces 收集 Java 问题和解决方案代码,由经验丰富的人类标注者根据时间复杂度对每个代码进行标注。随后,不同的编程专家验证了人类标注者分配的每个数据的类别。

引用信息

@article{JeonBHHK22, author = {Mingi Jeon and Seung-Yeop Baik and Joonghyuk Hahn and Yo-Sub Han and Sang-Ki Ko}, title = {{Deep Learning-based Code Complexity Prediction}}, year = {2022}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作