shibing624/source_code
收藏数据集卡片 - "SourceCode"
数据集描述
- 存储库: code-autocomplete
- 排行榜: leaderboard(位于主页)
- 下载的数据集文件大小: 105 MB
- 磁盘使用总量: 570 MB
数据集摘要
SourceCode 数据集是从 GitHub 的 awesome 仓库中收集的,包含 Python、Java、C++ 等多种编程语言的代码。该数据集可用于语言建模和文本生成等 NLP 任务。
数据来源:
- PYTHON_CODE: Awesome-pytorch-list
- JAVA_CODE: awesome-java
- CPP_CODE: awesome-cpp
支持的任务和排行榜
- 语言建模
- 代码生成任务,排行榜: code-autocomplete
语言
- 编程语言: Python, Java, C++
- 自然语言: 英语
数据集结构
数据实例
一个 train 示例如下: json { "text": """ import json import argparse
def _parse_args(): parser = argparse.ArgumentParser( description=doc, formatter_class=argparse.RawTextHelpFormatter, ) parser.add_argument( --model-file, required=True, help=( A pt file from https://github.com/pytorch/fairseq/tree/main/examples/hubert ) ) return parser.parse_args() """ }
数据字段
所有分割的数据字段相同:
text: 一个string特征。
数据分割
Python
shell $ wc -l python/* 10000 python/test.txt 5215412 python/train.txt 10000 python/valid.txt 5235412 total
Java
shell
$ wc -l java/*
950083 java/test.txt
2802880 java/train.txt
940803 java/valid.txt
4693766 total
C++
shell $ wc -l cpp/* 1060014 cpp/test.txt 3119241 cpp/train.txt 1099124 cpp/valid.txt 5278379 total
数据集创建
策划理由
作为代码生成数据集,我将其上传到 huggingface 数据集。
源数据
初始数据收集和规范化
源语言生产者是谁?
引用:
APA: latex Xu, M. code-autocomplete: Code AutoComplete with GPT2 model (Version 0.0.4) [Computer software]. https://github.com/shibing624/code-autocomplete
BibTeX: latex @software{Xu_code-autocomplete_Code_AutoComplete, author = {Xu, Ming}, title = {code-autocomplete: Code AutoComplete with GPT2 model}, url = {https://github.com/shibing624/code-autocomplete}, version = {0.0.4} }
注释
注释过程
注释者是谁?
无人
个人和敏感信息
使用数据的注意事项
数据集的社会影响
该数据集是为评估代码生成模型而开发的基准。
偏见的讨论
其他已知限制
附加信息
数据集策展人
Github awesome 编程代码仓库。
许可信息
GNU Free Documentation License v1.3 或更高版本。
仅用于研究。
贡献
感谢 @shibing624 添加此数据集。



