pszemraj/simpleRW-lite
收藏Hugging Face2023-09-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/simpleRW-lite
下载链接
链接失效反馈官方服务:
资源简介:
数据集simpleRW-lite是由simple wikipedia LM和refinedweb-3m-deduped-split两个源数据集交织而成。该数据集包含训练集、验证集和测试集,每个集的特征都是text,数据类型为字符串。训练集包含452484个样本,验证集和测试集各包含11908个样本。数据集的下载大小为538623929字节,数据集大小为1197662916.0154426字节。
提供机构:
pszemraj
原始信息汇总
数据集概述
数据集名称
- simpleRW-lite
数据集描述
- 数据集包含来自 simple wikipedia LM 和 refinedweb-3m 的交错文本数据。
数据集配置
- 默认配置
数据文件
- 训练集:路径为
data/train-* - 验证集:路径为
data/validation-* - 测试集:路径为
data/test-*
数据集特征
- 特征名称:text
- 数据类型:string
数据集分割
- 训练集:
- 字节数:1136718026.846949
- 样本数:452484
- 验证集:
- 字节数:30473651.26394911
- 样本数:11908
- 测试集:
- 字节数:30471237.904544305
- 样本数:11908
数据集大小
- 下载大小:538623929 字节
- 数据集大小:1197662916.0154426 字节
数据集来源
- pszemraj/simple_wikipedia_LM
- pszemraj/refinedweb-3m-deduped-split
数据集统计
- 训练集描述性统计(使用 Pandas):
- 样本数:452484
- 平均值:430.923633
- 标准差:1391.959655
- 最小值:0.000000
- 25% 分位数:83.000000
- 50% 分位数:175.000000
- 75% 分位数:432.000000
- 最大值:135922.000000



