BEE-spoke-data/code-tutorials-en
收藏Hugging Face2023-11-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/code-tutorials-en
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含两个配置:default和unfiltered,每个配置都有不同的数据文件路径和特征。特征包括文本、URL、dump、来源、单词数和Flesch阅读易度。数据集主要用于文本生成任务,语言为英语,大小类别为100K<n<1M。此外,数据集仅包含英语内容,每篇文章至少有100个单词,且阅读易度不低于50。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
配置信息
-
默认配置 (
default)- 数据文件路径
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
- 特征信息
text: 字符串url: 字符串dump: 字符串source: 字符串word_count: 整数 (int64)flesch_reading_ease: 浮点数 (float64)
- 数据分割
- 训练集: 223162个样本, 2003343392.8658142字节
- 验证集: 5873个样本, 52722397.8378977字节
- 测试集: 5873个样本, 52722397.8378977字节
- 数据大小
- 下载大小: 1137457027字节
- 数据集大小: 2108788188.5416098字节
- 数据文件路径
-
未过滤配置 (
unfiltered)- 数据文件路径
- 训练集:
unfiltered/train-*
- 训练集:
- 特征信息
text: 字符串url: 字符串dump: 字符串source: 字符串word_count: 整数 (int64)flesch_reading_ease: 浮点数 (float64)
- 数据分割
- 训练集: 384646个样本, 3452998372字节
- 数据大小
- 下载大小: 1859375824字节
- 数据集大小: 3452998372字节
- 数据文件路径
数据集来源
- 来源:
mponty/code_tutorials - 许可证:
odc-by
任务类别
- 文本生成
语言
- 英语 (
en)
数据集大小类别
- 100K<n<1M



