bigcode/the-stack-smol-xs
收藏Hugging Face2023-02-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/the-stack-smol-xs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是[the-stack](https://huggingface.co/datasets/bigcode/the-stack)数据集的一个小子集,包含87种编程语言,每种语言从原始数据集中随机抽取了100个样本用于可视化。
提供机构:
bigcode
原始信息汇总
数据集概述
数据集描述
- 来源:A small subset of the-stack dataset.
- 特点:包含87种编程语言,每种语言有100个随机样本,用于可视化。
语言
- 编程语言数量:87种
- 具体语言:包括ada, agda, alloy, antlr, applescript, assembly, augeas, awk, batchfile, bison, bluespec, c, c++, c-sharp, clojure, cmake, coffeescript, common-lisp, css, cuda, dart, dockerfile, elixir, elm, emacs-lisp,erlang, f-sharp, fortran, glsl, go, groovy, haskell,html, idris, isabelle, java, java-server-pages, javascript, julia, kotlin, lean, literate-agda, literate-coffeescript, literate-haskell, lua, makefile, maple, markdown, mathematica, matlab, ocaml, pascal, perl, php, powershell, prolog, protocol-buffer, python, r, racket, restructuredtext, rmarkdown, ruby, rust, sas, scala, scheme, shell, smalltalk, solidity, sparql, sql, stan, standard-ml, stata, systemverilog, tcl, tcsh, tex, thrift, typescript, verilog, vhdl, visual-basic, xslt, yacc, zig.
数据集结构
-
加载方式:可通过指定编程语言加载数据集,默认加载Python语言。
-
示例:加载Go语言的代码如下: python from datasets import load_dataset load_dataset("bigcode/the-stack-smol-xs", "go")
-
数据集结构:包含训练集,其特征包括content, lang, size, ext, max_stars_count, avg_line_length, max_line_length, alphanum_fraction,每种语言的样本数为100。



