five

ibm-project-codenet

收藏
Hugging Face2026-04-10 更新2026-04-11 收录
下载链接:
https://huggingface.co/datasets/TheFinAI/ibm-project-codenet
下载链接
链接失效反馈
官方服务:
资源简介:
Project_CodeNet数据集是一个大规模代码语料库,专为预训练语言模型而设计,主要来源于在线判题系统收集的竞争性编程提交。数据集包含约637万样本,总计约30.6亿令牌,平均每个样本包含480.44个令牌。每个样本包含四个字段:Source(数据集名称)、Date(提交年份)、Text(源代码)和Token_count(令牌计数)。数据集经过筛选,仅保留被接受的提交,并对每个问题、用户和语言组合保留最后一次成功提交,以近似用户最终解决方案。数据集保留了原始提交分布,未进行内容去重或平衡处理,因此在语言和时间分布上存在明显偏斜(C++占约60%,Python占23%,且大部分样本集中在2019-2020年)。该数据集适用于代码语言模型的预训练、编程模式的时间演变研究以及在真实分布设置下的基准测试。需要注意的是,数据集主要包含竞争性编程代码,与生产软件代码存在差异,且在语言和时间上存在不平衡。
提供机构:
The Fin AI
创建时间:
2026-04-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作