five

xuyeliu/notebookCDG

收藏
Hugging Face2021-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xuyeliu/notebookCDG
下载链接
链接失效反馈
官方服务:
资源简介:
notebookCDG数据集是为一篇关于Jupyter Notebook代码文档生成的论文设计的。数据集来源于Kaggle平台上最受欢迎的20个竞赛中投票最高的10%的笔记本。经过数据预处理后,最终数据集包含2,476个笔记本,共有28,625个代码-文档对。数据集还包括了代码序列和图结构的输入文件。

The notebookCDG dataset was designed for a paper focused on code documentation generation for Jupyter Notebooks. The dataset is sourced from the top 10% of most-voted notebooks across the 20 most popular competitions on the Kaggle platform. After data preprocessing, the final dataset contains 2,476 notebooks with a total of 28,625 code-document pairs. The dataset also includes input files in the forms of code sequences and graph structures.
提供机构:
xuyeliu
原始信息汇总

数据集概述

数据集名称

notebookCDG

数据集来源

该数据集是为论文《HAConvGNN: Hierarchical Attention Based Convolutional Graph Neural Network for Code Documentation Generation in Jupyter Notebooks》(EMNLP21 Finding)设计的。

数据集内容

  • 数据集文件
    • dataset_notebook.pkl:用于直接运行代码。
    • coms.traincoms.valcoms.test:分割的地面实况文档,遵循8:1:1的比例。
    • ast_nodes.pklast_edges.pkl:图输入。
    • code.seq:代码序列输入。

数据集构建

  • 数据收集:从Kaggle的20个最受欢迎竞赛中收集了前10%的高票数笔记本。
  • 数据处理:从原始的3,944个笔记本中,经过预处理后得到2,476个笔记本。
  • 数据特征:包含28,625个代码-文档对,整体代码到标记比率为2.2195。

引用信息

  • 论文引用

    @misc{liu2021haconvgnn, title={HAConvGNN: Hierarchical Attention Based Convolutional Graph Neural Network for Code Documentation Generation in Jupyter Notebooks}, author={Xuye Liu and Dakuo Wang and April Wang and Yufang Hou and Lingfei Wu}, year={2021}, eprint={2104.01002}, archivePrefix={arXiv}, primaryClass={cs.SE} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作