ibm-project-codenet
收藏Hugging Face2026-04-10 更新2026-04-11 收录
下载链接:
https://huggingface.co/datasets/TheFinAI/ibm-project-codenet
下载链接
链接失效反馈官方服务:
资源简介:
Project_CodeNet数据集是一个大规模代码语料库,专为预训练语言模型而设计,主要来源于在线判题系统收集的竞争性编程提交。数据集包含约637万样本,总计约30.6亿令牌,平均每个样本包含480.44个令牌。每个样本包含四个字段:Source(数据集名称)、Date(提交年份)、Text(源代码)和Token_count(令牌计数)。数据集经过筛选,仅保留被接受的提交,并对每个问题、用户和语言组合保留最后一次成功提交,以近似用户最终解决方案。数据集保留了原始提交分布,未进行内容去重或平衡处理,因此在语言和时间分布上存在明显偏斜(C++占约60%,Python占23%,且大部分样本集中在2019-2020年)。该数据集适用于代码语言模型的预训练、编程模式的时间演变研究以及在真实分布设置下的基准测试。需要注意的是,数据集主要包含竞争性编程代码,与生产软件代码存在差异,且在语言和时间上存在不平衡。
提供机构:
The Fin AI
创建时间:
2026-04-10



