xuyeliu/notebookCDG
收藏Hugging Face2021-12-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/xuyeliu/notebookCDG
下载链接
链接失效反馈官方服务:
资源简介:
notebookCDG数据集是为一篇关于Jupyter Notebook代码文档生成的论文设计的。数据集来源于Kaggle平台上最受欢迎的20个竞赛中投票最高的10%的笔记本。经过数据预处理后,最终数据集包含2,476个笔记本,共有28,625个代码-文档对。数据集还包括了代码序列和图结构的输入文件。
The notebookCDG dataset was designed for a paper focused on code documentation generation for Jupyter Notebooks. The dataset is sourced from the top 10% of most-voted notebooks across the 20 most popular competitions on the Kaggle platform. After data preprocessing, the final dataset contains 2,476 notebooks with a total of 28,625 code-document pairs. The dataset also includes input files in the forms of code sequences and graph structures.
提供机构:
xuyeliu
原始信息汇总
数据集概述
数据集名称
notebookCDG
数据集来源
该数据集是为论文《HAConvGNN: Hierarchical Attention Based Convolutional Graph Neural Network for Code Documentation Generation in Jupyter Notebooks》(EMNLP21 Finding)设计的。
数据集内容
- 数据集文件:
dataset_notebook.pkl:用于直接运行代码。coms.train、coms.val、coms.test:分割的地面实况文档,遵循8:1:1的比例。ast_nodes.pkl、ast_edges.pkl:图输入。code.seq:代码序列输入。
数据集构建
- 数据收集:从Kaggle的20个最受欢迎竞赛中收集了前10%的高票数笔记本。
- 数据处理:从原始的3,944个笔记本中,经过预处理后得到2,476个笔记本。
- 数据特征:包含28,625个代码-文档对,整体代码到标记比率为2.2195。
引用信息
-
论文引用:
@misc{liu2021haconvgnn, title={HAConvGNN: Hierarchical Attention Based Convolutional Graph Neural Network for Code Documentation Generation in Jupyter Notebooks}, author={Xuye Liu and Dakuo Wang and April Wang and Yufang Hou and Lingfei Wu}, year={2021}, eprint={2104.01002}, archivePrefix={arXiv}, primaryClass={cs.SE} }



