shibing624/source_code

Name: shibing624/source_code
Creator: shibing624
Published: 2022-10-30 06:30:07
License: 暂无描述

Hugging Face2022-10-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/shibing624/source_code

下载链接

链接失效反馈

官方服务：

资源简介：

SourceCode数据集是一个包含Python、Java、C++等编程语言的GitHub优秀仓库的集合。该数据集适用于语言建模和文本生成等自然语言处理任务。数据集通过众包方式收集，大小为100M到200M之间，且是单语言的（英语）。数据集的来源包括多个GitHub仓库，如Awesome-pytorch-list、awesome-java和awesome-cpp。数据集的结构包括数据实例、数据字段和数据分割，具体展示了Python、Java和C++代码的示例。数据集的创建目的是作为代码生成模型的基准。

提供机构：

shibing624

原始信息汇总

数据集卡片 - "SourceCode"

数据集描述

存储库: code-autocomplete
排行榜: leaderboard（位于主页）
下载的数据集文件大小: 105 MB
磁盘使用总量: 570 MB

数据集摘要

SourceCode 数据集是从 GitHub 的 awesome 仓库中收集的，包含 Python、Java、C++ 等多种编程语言的代码。该数据集可用于语言建模和文本生成等 NLP 任务。

数据来源：

PYTHON_CODE: Awesome-pytorch-list
JAVA_CODE: awesome-java
CPP_CODE: awesome-cpp

支持的任务和排行榜

语言建模
代码生成任务，排行榜: code-autocomplete

语言

编程语言: Python, Java, C++
自然语言: 英语

数据集结构

数据实例

一个 train 示例如下： json { "text": """ import json import argparse

def _parse_args(): parser = argparse.ArgumentParser( description=doc, formatter_class=argparse.RawTextHelpFormatter, ) parser.add_argument( --model-file, required=True, help=( A pt file from https://github.com/pytorch/fairseq/tree/main/examples/hubert ) ) return parser.parse_args() """ }

数据字段

所有分割的数据字段相同：

text: 一个 string 特征。

数据分割

Python

shell $ wc -l python/* 10000 python/test.txt 5215412 python/train.txt 10000 python/valid.txt 5235412 total

Java

shell $ wc -l java/*
950083 java/test.txt 2802880 java/train.txt 940803 java/valid.txt 4693766 total

C++

shell $ wc -l cpp/* 1060014 cpp/test.txt 3119241 cpp/train.txt 1099124 cpp/valid.txt 5278379 total

数据集创建

策划理由

作为代码生成数据集，我将其上传到 huggingface 数据集。

源数据

初始数据收集和规范化

源语言生产者是谁？

引用：

APA: latex Xu, M. code-autocomplete: Code AutoComplete with GPT2 model (Version 0.0.4) [Computer software]. https://github.com/shibing624/code-autocomplete

BibTeX: latex @software{Xu_code-autocomplete_Code_AutoComplete, author = {Xu, Ming}, title = {code-autocomplete: Code AutoComplete with GPT2 model}, url = {https://github.com/shibing624/code-autocomplete}, version = {0.0.4} }

注释

注释过程

注释者是谁？

无人

个人和敏感信息

使用数据的注意事项

数据集的社会影响

该数据集是为评估代码生成模型而开发的基准。

偏见的讨论

其他已知限制

附加信息

数据集策展人

Github awesome 编程代码仓库。

许可信息

GNU Free Documentation License v1.3 或更高版本。

仅用于研究。

贡献

感谢 @shibing624 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集