five

BEE-spoke-data/code-tutorials-en

收藏
Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/code-tutorials-en
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:default和unfiltered,每个配置都有不同的数据文件路径和特征。特征包括文本、URL、dump、来源、单词数和Flesch阅读易度。数据集主要用于文本生成任务,语言为英语,大小类别为100K<n<1M。此外,数据集仅包含英语内容,每篇文章至少有100个单词,且阅读易度不低于50。
提供机构:
BEE-spoke-data
原始信息汇总

数据集概述

配置信息

  • 默认配置 (default)

    • 数据文件路径
      • 训练集: data/train-*
      • 验证集: data/validation-*
      • 测试集: data/test-*
    • 特征信息
      • text: 字符串
      • url: 字符串
      • dump: 字符串
      • source: 字符串
      • word_count: 整数 (int64)
      • flesch_reading_ease: 浮点数 (float64)
    • 数据分割
      • 训练集: 223162个样本, 2003343392.8658142字节
      • 验证集: 5873个样本, 52722397.8378977字节
      • 测试集: 5873个样本, 52722397.8378977字节
    • 数据大小
      • 下载大小: 1137457027字节
      • 数据集大小: 2108788188.5416098字节
  • 未过滤配置 (unfiltered)

    • 数据文件路径
      • 训练集: unfiltered/train-*
    • 特征信息
      • text: 字符串
      • url: 字符串
      • dump: 字符串
      • source: 字符串
      • word_count: 整数 (int64)
      • flesch_reading_ease: 浮点数 (float64)
    • 数据分割
      • 训练集: 384646个样本, 3452998372字节
    • 数据大小
      • 下载大小: 1859375824字节
      • 数据集大小: 3452998372字节

数据集来源

  • 来源: mponty/code_tutorials
  • 许可证: odc-by

任务类别

  • 文本生成

语言

  • 英语 (en)

数据集大小类别

  • 100K<n<1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作