Dataset for pre-training language models for Java, C, and C++ obtained from GitHub

Name: Dataset for pre-training language models for Java, C, and C++ obtained from GitHub
Creator: Poznań University of Technology
Published: 2025-01-01 00:00:00
License: 暂无描述

Zenodo2025-01-01 更新2026-04-07 收录

下载链接：

https://zenodo.org/doi/10.5281/zenodo.15041466

下载链接

链接失效反馈

官方服务：

资源简介：

The dataset was composed within the research project - NCN OPUS'21 project "Source-code-representations for machine-learning-based identification of defective code fragments" (2021/41/B/ST6/02510)] (https://ml4code.cs.put.poznan.pl/).

提供机构：

Poznań University of Technology

创建时间：

2025-01-01

5,000+

优质数据集

54 个

任务类型

进入经典数据集