apcl/jm52m
收藏Hugging Face2023-05-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/apcl/jm52m
下载链接
链接失效反馈官方服务:
资源简介:
jm52m数据集包含来自52k个Java项目的52m个Java方法,源代码来源于Merobase和Sourcerer数据发布,并补充了LeClair等人的先前工作。数据集涵盖了2008年至2018年间上传到代码仓库的代码,并提取了每个文件和项目中的每个Java方法,同时移除了空方法、损坏文件中的方法以及解析错误的方法。数据集包括LSH目录、pickle文件、压缩的JSON文件、测试集ID文件、训练和验证的二进制文件以及压缩的SQL文件。详细信息包括令牌数量为8,752,695,577,文档数量为51,841,717,文件数量为8,402,038,项目数量为52,933,处理后的数据大小为16,695 MB。
jm52m数据集包含来自52k个Java项目的52m个Java方法,源代码来源于Merobase和Sourcerer数据发布,并补充了LeClair等人的先前工作。数据集涵盖了2008年至2018年间上传到代码仓库的代码,并提取了每个文件和项目中的每个Java方法,同时移除了空方法、损坏文件中的方法以及解析错误的方法。数据集包括LSH目录、pickle文件、压缩的JSON文件、测试集ID文件、训练和验证的二进制文件以及压缩的SQL文件。详细信息包括令牌数量为8,752,695,577,文档数量为51,841,717,文件数量为8,402,038,项目数量为52,933,处理后的数据大小为16,695 MB。
提供机构:
apcl
原始信息汇总
jm52m数据集概述
数据集描述
jm52m是一个包含5200万Java方法的数据集,来源于52000个Java项目。这些源代码主要来自Merobase和Sourcerer数据发布,并补充了LeClair等人的先前工作。数据集涵盖了2008年至2018年间上传至代码仓库的代码。
数据集处理
我们从每个文件和项目中提取了所有Java方法,并移除了空方法、来自损坏文件的方法以及解析错误的方法。
文件列表
fc_lsh_parts_0.X0:lsh目录,其中X代表阈值(例如,阈值为0.5时,X为5)。fundats-j1.pkl:一个pickle文件,包含原始函数代码文件的字典,键为函数ID,值为原始代码。fundats-j1.json.gz:压缩的JSON文件,同样包含原始函数代码文件的字典。q90testfids.pkl:funcom Java方法测试集ID文件。train.bin和val.bin:用于训练和微调模型的二进制文件。jm52m.sql.gz:压缩的SQL文件,包含5200万Java方法的数据。
数据集详细信息
| 配置 | 值 |
|---|---|
| 令牌数量 | 8,752,695,577 |
| 文档数量 | 51,841,717 |
| 文件数量 | 8,402,038 |
| 项目数量 | 52,933 |
| 处理后的兆字节数 | 16,695 |
数据集的令牌化使用了GitHub仓库中提供的脚本进行处理。
搜集汇总
数据集介绍

背景与挑战
背景概述
jm52m是一个大规模Java方法数据集,包含从52000个项目中提取的5200万个Java方法,数据来源于2008年至2018年的代码仓库,并经过清洗移除无效内容。数据集提供多种文件格式,总大小达292 GB,适用于程序理解和机器学习任务。
以上内容由遇见数据集搜集并总结生成



