skeskinen/books3_lowgrade_paragraphs
收藏Hugging Face2023-06-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/skeskinen/books3_lowgrade_paragraphs
下载链接
链接失效反馈官方服务:
资源简介:
数据集books3_lowgrade_paragraphs来源于the_pile books3,包含难度估计在6.6到7.1之间的书籍段落。数据集被分割成段落,并过滤掉了大多数非段落内容,如标题、目录等。数据集包含四个特征:text(文本内容)、book(书籍名称)、pos(位置信息)、smog_index(难度指数)。数据集分为一个训练集,包含29,542,059个例子,总大小为6,426,499,179字节。
数据集books3_lowgrade_paragraphs来源于the_pile books3,包含难度估计在6.6到7.1之间的书籍段落。数据集被分割成段落,并过滤掉了大多数非段落内容,如标题、目录等。数据集包含四个特征:text(文本内容)、book(书籍名称)、pos(位置信息)、smog_index(难度指数)。数据集分为一个训练集,包含29,542,059个例子,总大小为6,426,499,179字节。
提供机构:
skeskinen
原始信息汇总
数据集概述
数据集名称
- 名称: books3_lowgrade_paragraphs
数据集特征
- 特征列表:
text: 数据类型为stringbook: 数据类型为stringpos: 数据类型为float64smog_index: 数据类型为float64
数据集划分
- 训练集:
- 大小: 6426499179 字节
- 示例数量: 29542059
数据集大小
- 下载大小: 3274999825 字节
- 总大小: 6426499179 字节



