five

bigcode/the-stack-smol-xs

收藏
Hugging Face2023-02-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/the-stack-smol-xs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是[the-stack](https://huggingface.co/datasets/bigcode/the-stack)数据集的一个小子集,包含87种编程语言,每种语言从原始数据集中随机抽取了100个样本用于可视化。
提供机构:
bigcode
原始信息汇总

数据集概述

数据集描述

  • 来源:A small subset of the-stack dataset.
  • 特点:包含87种编程语言,每种语言有100个随机样本,用于可视化。

语言

  • 编程语言数量:87种
  • 具体语言:包括ada, agda, alloy, antlr, applescript, assembly, augeas, awk, batchfile, bison, bluespec, c, c++, c-sharp, clojure, cmake, coffeescript, common-lisp, css, cuda, dart, dockerfile, elixir, elm, emacs-lisp,erlang, f-sharp, fortran, glsl, go, groovy, haskell,html, idris, isabelle, java, java-server-pages, javascript, julia, kotlin, lean, literate-agda, literate-coffeescript, literate-haskell, lua, makefile, maple, markdown, mathematica, matlab, ocaml, pascal, perl, php, powershell, prolog, protocol-buffer, python, r, racket, restructuredtext, rmarkdown, ruby, rust, sas, scala, scheme, shell, smalltalk, solidity, sparql, sql, stan, standard-ml, stata, systemverilog, tcl, tcsh, tex, thrift, typescript, verilog, vhdl, visual-basic, xslt, yacc, zig.

数据集结构

  • 加载方式:可通过指定编程语言加载数据集,默认加载Python语言。

  • 示例:加载Go语言的代码如下: python from datasets import load_dataset load_dataset("bigcode/the-stack-smol-xs", "go")

  • 数据集结构:包含训练集,其特征包括content, lang, size, ext, max_stars_count, avg_line_length, max_line_length, alphanum_fraction,每种语言的样本数为100。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作