BramVanroy/stack_md_lid
收藏Hugging Face2024-08-22 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/BramVanroy/stack_md_lid
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是[stack](https://huggingface.co/datasets/bigcode/the-stack-dedup) Markdown文件的去重副本,并使用fastText模型进行了语言标注,包括语言标签(`lid`列)和概率(`lid_prob`列)。数据集包含了多种语言的样本,并且列出了每种语言的样本数量(概率大于0.85)。数据集的特征包括文件的哈希值、大小、扩展名、语言、最大星标仓库路径、最大星标仓库名称、最大星标仓库的哈希值、许可证信息、星标数量、星标事件的最小和最大时间戳、最大问题仓库路径、最大问题仓库名称、最大问题仓库的哈希值、许可证信息、问题数量、问题事件的最小和最大时间戳、最大分叉仓库路径、最大分叉仓库名称、最大分叉仓库的哈希值、许可证信息、分叉数量、分叉事件的最小和最大时间戳、文件内容、平均行长度、最大行长度、字母数字比例、语言标签和语言概率。数据集包含一个训练集,大小为93,050,507,367字节,包含21,045,171个样本。
提供机构:
BramVanroy
原始信息汇总
数据集概述
数据特征
数据集包含以下特征:
- hexsha: 字符串类型
- size: 64位整数类型
- ext: 字符串类型
- lang: 字符串类型
- max_stars_repo_path: 字符串类型
- max_stars_repo_name: 字符串类型
- max_stars_repo_head_hexsha: 字符串类型
- max_stars_repo_licenses: 字符串序列类型
- max_stars_count: 64位整数类型
- max_stars_repo_stars_event_min_datetime: 字符串类型
- max_stars_repo_stars_event_max_datetime: 字符串类型
- max_issues_repo_path: 字符串类型
- max_issues_repo_name: 字符串类型
- max_issues_repo_head_hexsha: 字符串类型
- max_issues_repo_licenses: 字符串序列类型
- max_issues_count: 64位整数类型
- max_issues_repo_issues_event_min_datetime: 字符串类型
- max_issues_repo_issues_event_max_datetime: 字符串类型
- max_forks_repo_path: 字符串类型
- max_forks_repo_name: 字符串类型
- max_forks_repo_head_hexsha: 字符串类型
- max_forks_repo_licenses: 字符串序列类型
- max_forks_count: 64位整数类型
- max_forks_repo_forks_event_min_datetime: 字符串类型
- max_forks_repo_forks_event_max_datetime: 字符串类型
- content: 字符串类型
- avg_line_length: 64位浮点数类型
- max_line_length: 64位整数类型
- alphanum_fraction: 64位浮点数类型
- lid: 字符串类型
- lid_prob: 64位浮点数类型
数据分割
- train: 包含21,045,171个样本,总字节数为93,050,507,367
数据大小
- 下载大小: 47,391,258,276字节
- 数据集大小: 93,050,507,367字节
配置
- default: 包含训练数据文件,路径为
data/train-*
语言
数据集支持多语言,包括但不限于:
- abk
- ace
- ady
- afr
- aka
- als
- amh
- arb
- arn
- asm
- ast
- ayr
- azb
- azj
- bak
- bam
- ban
- bel
- bem
- ben
- bho
- bis
- bjn
- bod
- bos
- bug
- bul
- bxr
- cat
- ceb
- ces
- che
- chv
- cjk
- ckb
- crh
- cym
- dan
- deu
- dik
- diq
- dyu
- dzo
- ell
- eng
- epo
- est
- eus
- ewe
- ewo
- fao
- fij
- fin
- fon
- fra
- fur
- fuv
- gaz
- gla
- gle
- glg
- gom
- grn
- guj
- hat
- hau
- heb
- hin
- hrv
- hun
- hye
- ibo
- ilo
- ind
- isl
- ita
- jav
- jpn
- kab
- kac
- kal
- kam
- kan
- kas
- kat
- kaz
- kbp
- kea
- khk
- khm
- kik
- kin
- kir
- kmb
- kmr
- knc
- knc
- kon
- kor
- krc
- lao
- lij
- lim
- lin
- lit
- lmo
- ltg
- ltz
- lua
- lug
- luo
- lus
- lvs
- mag
- mai
- mal
- mar
- min
- mkd
- mlt
- mni
- mos
- mri
- mya
- nav
- nia
- nld
- nno
- nob
- npi
- nso
- nus
- nya
- oci
- ory
- oss
- pag
- pan
- pap
- pbt
- pcm
- pes
- plt
- pol
- por
- prs
- quy
- roh
- ron
- run
- rus
- sag
- san
- scn
- sin
- slk
- slv
- smo
- sna
- snd
- som
- sot
- spa
- srd
- srp
- ssw
- sun
- swe
- swh
- szl
- tah
- tam
- taq
- tat
- tel
- tgk
- tgl
- tha
- tir
- ton
- tpi
- tsn
- tso
- tuk
- tum
- tur
- twi
- udm
- uig
- ukr
- umb
- urd
- uzn
- vec
- vie
- war
- wes
- wol
- xho
- ydd
- yor
- yue
- zho
- zsm
- zul



