five

BramVanroy/stack_md_lid

收藏
Hugging Face2024-08-22 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/stack_md_lid
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是[stack](https://huggingface.co/datasets/bigcode/the-stack-dedup) Markdown文件的去重副本,并使用fastText模型进行了语言标注,包括语言标签(`lid`列)和概率(`lid_prob`列)。数据集包含了多种语言的样本,并且列出了每种语言的样本数量(概率大于0.85)。数据集的特征包括文件的哈希值、大小、扩展名、语言、最大星标仓库路径、最大星标仓库名称、最大星标仓库的哈希值、许可证信息、星标数量、星标事件的最小和最大时间戳、最大问题仓库路径、最大问题仓库名称、最大问题仓库的哈希值、许可证信息、问题数量、问题事件的最小和最大时间戳、最大分叉仓库路径、最大分叉仓库名称、最大分叉仓库的哈希值、许可证信息、分叉数量、分叉事件的最小和最大时间戳、文件内容、平均行长度、最大行长度、字母数字比例、语言标签和语言概率。数据集包含一个训练集,大小为93,050,507,367字节,包含21,045,171个样本。
提供机构:
BramVanroy
原始信息汇总

数据集概述

数据特征

数据集包含以下特征:

  • hexsha: 字符串类型
  • size: 64位整数类型
  • ext: 字符串类型
  • lang: 字符串类型
  • max_stars_repo_path: 字符串类型
  • max_stars_repo_name: 字符串类型
  • max_stars_repo_head_hexsha: 字符串类型
  • max_stars_repo_licenses: 字符串序列类型
  • max_stars_count: 64位整数类型
  • max_stars_repo_stars_event_min_datetime: 字符串类型
  • max_stars_repo_stars_event_max_datetime: 字符串类型
  • max_issues_repo_path: 字符串类型
  • max_issues_repo_name: 字符串类型
  • max_issues_repo_head_hexsha: 字符串类型
  • max_issues_repo_licenses: 字符串序列类型
  • max_issues_count: 64位整数类型
  • max_issues_repo_issues_event_min_datetime: 字符串类型
  • max_issues_repo_issues_event_max_datetime: 字符串类型
  • max_forks_repo_path: 字符串类型
  • max_forks_repo_name: 字符串类型
  • max_forks_repo_head_hexsha: 字符串类型
  • max_forks_repo_licenses: 字符串序列类型
  • max_forks_count: 64位整数类型
  • max_forks_repo_forks_event_min_datetime: 字符串类型
  • max_forks_repo_forks_event_max_datetime: 字符串类型
  • content: 字符串类型
  • avg_line_length: 64位浮点数类型
  • max_line_length: 64位整数类型
  • alphanum_fraction: 64位浮点数类型
  • lid: 字符串类型
  • lid_prob: 64位浮点数类型

数据分割

  • train: 包含21,045,171个样本,总字节数为93,050,507,367

数据大小

  • 下载大小: 47,391,258,276字节
  • 数据集大小: 93,050,507,367字节

配置

  • default: 包含训练数据文件,路径为data/train-*

语言

数据集支持多语言,包括但不限于:

  • abk
  • ace
  • ady
  • afr
  • aka
  • als
  • amh
  • arb
  • arn
  • asm
  • ast
  • ayr
  • azb
  • azj
  • bak
  • bam
  • ban
  • bel
  • bem
  • ben
  • bho
  • bis
  • bjn
  • bod
  • bos
  • bug
  • bul
  • bxr
  • cat
  • ceb
  • ces
  • che
  • chv
  • cjk
  • ckb
  • crh
  • cym
  • dan
  • deu
  • dik
  • diq
  • dyu
  • dzo
  • ell
  • eng
  • epo
  • est
  • eus
  • ewe
  • ewo
  • fao
  • fij
  • fin
  • fon
  • fra
  • fur
  • fuv
  • gaz
  • gla
  • gle
  • glg
  • gom
  • grn
  • guj
  • hat
  • hau
  • heb
  • hin
  • hrv
  • hun
  • hye
  • ibo
  • ilo
  • ind
  • isl
  • ita
  • jav
  • jpn
  • kab
  • kac
  • kal
  • kam
  • kan
  • kas
  • kat
  • kaz
  • kbp
  • kea
  • khk
  • khm
  • kik
  • kin
  • kir
  • kmb
  • kmr
  • knc
  • knc
  • kon
  • kor
  • krc
  • lao
  • lij
  • lim
  • lin
  • lit
  • lmo
  • ltg
  • ltz
  • lua
  • lug
  • luo
  • lus
  • lvs
  • mag
  • mai
  • mal
  • mar
  • min
  • mkd
  • mlt
  • mni
  • mos
  • mri
  • mya
  • nav
  • nia
  • nld
  • nno
  • nob
  • npi
  • nso
  • nus
  • nya
  • oci
  • ory
  • oss
  • pag
  • pan
  • pap
  • pbt
  • pcm
  • pes
  • plt
  • pol
  • por
  • prs
  • quy
  • roh
  • ron
  • run
  • rus
  • sag
  • san
  • scn
  • sin
  • slk
  • slv
  • smo
  • sna
  • snd
  • som
  • sot
  • spa
  • srd
  • srp
  • ssw
  • sun
  • swe
  • swh
  • szl
  • tah
  • tam
  • taq
  • tat
  • tel
  • tgk
  • tgl
  • tha
  • tir
  • ton
  • tpi
  • tsn
  • tso
  • tuk
  • tum
  • tur
  • twi
  • udm
  • uig
  • ukr
  • umb
  • urd
  • uzn
  • vec
  • vie
  • war
  • wes
  • wol
  • xho
  • ydd
  • yor
  • yue
  • zho
  • zsm
  • zul
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作