five

shibing624/source_code

收藏
Hugging Face2022-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shibing624/source_code
下载链接
链接失效反馈
官方服务:
资源简介:
SourceCode数据集是一个包含Python、Java、C++等编程语言的GitHub优秀仓库的集合。该数据集适用于语言建模和文本生成等自然语言处理任务。数据集通过众包方式收集,大小为100M到200M之间,且是单语言的(英语)。数据集的来源包括多个GitHub仓库,如Awesome-pytorch-list、awesome-java和awesome-cpp。数据集的结构包括数据实例、数据字段和数据分割,具体展示了Python、Java和C++代码的示例。数据集的创建目的是作为代码生成模型的基准。
提供机构:
shibing624
原始信息汇总

数据集卡片 - "SourceCode"

数据集描述

数据集摘要

SourceCode 数据集是从 GitHub 的 awesome 仓库中收集的,包含 Python、Java、C++ 等多种编程语言的代码。该数据集可用于语言建模和文本生成等 NLP 任务。

数据来源:

支持的任务和排行榜

语言

  • 编程语言: Python, Java, C++
  • 自然语言: 英语

数据集结构

数据实例

一个 train 示例如下: json { "text": """ import json import argparse

def _parse_args(): parser = argparse.ArgumentParser( description=doc, formatter_class=argparse.RawTextHelpFormatter, ) parser.add_argument( --model-file, required=True, help=( A pt file from https://github.com/pytorch/fairseq/tree/main/examples/hubert ) ) return parser.parse_args() """ }

数据字段

所有分割的数据字段相同:

  • text: 一个 string 特征。

数据分割

Python

shell $ wc -l python/* 10000 python/test.txt 5215412 python/train.txt 10000 python/valid.txt 5235412 total

Java

shell $ wc -l java/*
950083 java/test.txt 2802880 java/train.txt 940803 java/valid.txt 4693766 total

C++

shell $ wc -l cpp/* 1060014 cpp/test.txt 3119241 cpp/train.txt 1099124 cpp/valid.txt 5278379 total

数据集创建

策划理由

作为代码生成数据集,我将其上传到 huggingface 数据集。

源数据

初始数据收集和规范化

源语言生产者是谁?

引用:

APA: latex Xu, M. code-autocomplete: Code AutoComplete with GPT2 model (Version 0.0.4) [Computer software]. https://github.com/shibing624/code-autocomplete

BibTeX: latex @software{Xu_code-autocomplete_Code_AutoComplete, author = {Xu, Ming}, title = {code-autocomplete: Code AutoComplete with GPT2 model}, url = {https://github.com/shibing624/code-autocomplete}, version = {0.0.4} }

注释

注释过程

注释者是谁?

无人

个人和敏感信息

使用数据的注意事项

数据集的社会影响

该数据集是为评估代码生成模型而开发的基准。

偏见的讨论

其他已知限制

附加信息

数据集策展人

Github awesome 编程代码仓库。

许可信息

GNU Free Documentation License v1.3 或更高版本。

仅用于研究。

贡献

感谢 @shibing624 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作