mponty/code_tutorials
收藏Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mponty/code_tutorials
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约500,000个文档,总计约15亿个标记,主要来源于编码教程。这些教程是从RefinedWeb、OSCAR和Escorpius等网络爬取数据集中精心筛选出来的,不仅包含代码片段,还提供了代码背后的原理、解决的问题以及详细的步骤说明。这对于训练代码语言模型非常有用,使其能够理解代码背后的用户意图,从而提供更符合上下文的帮助。数据集中编程语言的分布为:C++占39%,Python占25%,Java占16%,C#占3%,JavaScript和Kotlin各占1%,其他占14%。自然语言的分布为:英语占80%,俄语占16%,中文和西班牙语各占2%。
提供机构:
mponty
原始信息汇总
数据集概述
数据集信息
- 特征:
text: 字符串类型url: 字符串类型dump: 字符串类型lang: 字符串类型source: 字符串类型
- 分割:
train: 字节数为 3124929718.313386,样本数为 518410
- 下载大小: 2971113091 字节
- 数据集大小: 3124929718.313386 字节
配置
- 默认配置:
- 数据文件:
train: 路径为data/train-*
- 数据文件:
任务类别
- 文本生成
语言
- 英语
- 俄语
- 中文
- 西班牙语
标签
- 代码
数据集名称
- k
大小类别
- 100K<n<1M
编程语言分布
cpp: 39%python: 25%java: 16%csharp: 3%javascript: 1%kotlin: 1%other: 14%
自然语言分布
en: 80%ru: 16%zh: 2%es: 2%



