five

mponty/code_tutorials

收藏
Hugging Face2023-11-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mponty/code_tutorials
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约500,000个文档,总计约15亿个标记,主要来源于编码教程。这些教程是从RefinedWeb、OSCAR和Escorpius等网络爬取数据集中精心筛选出来的,不仅包含代码片段,还提供了代码背后的原理、解决的问题以及详细的步骤说明。这对于训练代码语言模型非常有用,使其能够理解代码背后的用户意图,从而提供更符合上下文的帮助。数据集中编程语言的分布为:C++占39%,Python占25%,Java占16%,C#占3%,JavaScript和Kotlin各占1%,其他占14%。自然语言的分布为:英语占80%,俄语占16%,中文和西班牙语各占2%。
提供机构:
mponty
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • text: 字符串类型
    • url: 字符串类型
    • dump: 字符串类型
    • lang: 字符串类型
    • source: 字符串类型
  • 分割:
    • train: 字节数为 3124929718.313386,样本数为 518410
  • 下载大小: 2971113091 字节
  • 数据集大小: 3124929718.313386 字节

配置

  • 默认配置:
    • 数据文件:
      • train: 路径为 data/train-*

任务类别

  • 文本生成

语言

  • 英语
  • 俄语
  • 中文
  • 西班牙语

标签

  • 代码

数据集名称

  • k

大小类别

  • 100K<n<1M

编程语言分布

  • cpp: 39%
  • python: 25%
  • java: 16%
  • csharp: 3%
  • javascript: 1%
  • kotlin: 1%
  • other: 14%

自然语言分布

  • en: 80%
  • ru: 16%
  • zh: 2%
  • es: 2%
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作