apcl/funcom-python
收藏Hugging Face2023-08-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/apcl/funcom-python
下载链接
链接失效反馈官方服务:
资源简介:
funcom-python数据集是从Github上下载的40,000个Python项目中提取的,包含了270,000个函数。数据集包括多个文件,如测试集的参考评论、评论的标记文件、用于codegnnGRU模型的图数据、包含评论和代码的序列数据等。此外,数据集还提供了详细的参数信息,如目标子程序中的标记数量、摘要中的单词数量、源代码词汇表大小和摘要词汇表大小。
funcom-python数据集是从Github上下载的40,000个Python项目中提取的,包含了270,000个函数。数据集包括多个文件,如测试集的参考评论、评论的标记文件、用于codegnnGRU模型的图数据、包含评论和代码的序列数据等。此外,数据集还提供了详细的参数信息,如目标子程序中的标记数量、摘要中的单词数量、源代码词汇表大小和摘要词汇表大小。
提供机构:
apcl
原始信息汇总
funcom-python 数据集
Funcom-python 数据集是从 Github 下载的 40,000 个 Python 项目的数据集,包含 270,000 个函数。
数据文件详情
| 文件名 | 描述 |
|---|---|
| coms.test | 测试集的参考注释 |
| com.tok | 注释的标记文件 |
| dataset_graph.pkl | CodeGNNGRU 模型的图数据 |
| dataset_seqs.h5 | 包含训练注释和预测训练代码的序列数据 |
| dataset_short.pkl | 包含所有标记的文件 |
| graph.tok | 图的标记文件 |
| smls.tok | AST 的标记文件 |
参数详情
| 参数 | 值 |
|---|---|
| 目标子程序中的标记 | 50 |
| 摘要中的单词 | 13 |
| 源代码词汇大小 | 100,000 |
| 摘要词汇大小 | 11,000 |



