NL2Repo Python Repositories
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/NL2Code/CodeS/tree/main/repos
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从GitHub上爬取的高质量Python仓库集合,用于对模型进行有监督的微调,以应对自然语言到代码仓库(NL2Repo)的任务。为确保数据质量,筛选过程中只包含了拥有超过100个星标(stars)的仓库。该数据集的规模包括100个高质量的Python仓库,共含有7,806个指令数据点。所涉及的任务是自然语言到代码仓库(Nl2Repo)的转换。
This dataset comprises a curated set of high-quality Python repositories crawled from GitHub, designed for supervised fine-tuning of models to perform the natural language to code repository (NL2Repo) task. To guarantee data quality, only repositories with more than 100 GitHub stars were retained throughout the screening procedure. This dataset includes 100 high-quality Python repositories, containing a total of 7,806 instruction data points. The core task encompassed by this dataset is the conversion from natural language to code repository (NL2Repo).
提供机构:
Crawled from GitHub
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于监督微调的Python代码仓库集合,包含100个高质量仓库,通过GitHub筛选创建于2023年8月1日之前且星标数超过100的Python项目获得。其目的是为NL2Repo任务训练基础模型,确保数据质量并避免评估基准的数据泄露,涵盖了从网络爬虫到机器学习等多个领域的代码示例。
以上内容由遇见数据集搜集并总结生成



