pszemraj/simplepile-lite
收藏Hugging Face2023-10-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/simplepile-lite
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为simplepile-lite,是一个用于填充掩码和文本生成任务的英文文本数据集。它由两个源数据集pszemraj/simple_wikipedia_LM和JeanKaddour/minipile组成,采用first exhausted策略进行交织。数据集包含训练、验证和测试三个分割,总共有452432个训练示例,1000个验证示例和11908个测试示例。每个示例的特征是文本,数据类型为字符串。数据集的总大小为1596970717字节,下载大小为867798625字节。使用GPTNeoX Tokenizer对训练集进行的分词统计显示,平均每个示例有868.642个token,标准差为4791.71,最小值为3,最大值为1397470。
提供机构:
pszemraj
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 数据集大小: 100K<n<1M
- 语言: 英语
数据来源
pszemraj/simple_wikipedia_LMJeanKaddour/minipile
任务类别
- 填空
- 文本生成
配置
- 配置名称: default
- 数据文件:
- 训练集:
data/train-* - 验证集:
data/validation-* - 测试集:
data/test-*
- 训练集:
数据集信息
- 特征:
- 名称: text
- 数据类型: string
- 分割:
- 训练集:
- 字节数: 1552622685
- 样本数: 452432
- 验证集:
- 字节数: 3202346
- 样本数: 1000
- 测试集:
- 字节数: 41145686
- 样本数: 11908
- 训练集:
- 下载大小: 867798625
- 数据集大小: 1596970717
数据集字典
python DatasetDict({ train: Dataset({ features: [text], num_rows: 452432 }) validation: Dataset({ features: [text], num_rows: 1000 }) test: Dataset({ features: [text], num_rows: 11908 }) })
训练集的Token统计
- 使用GPTNeoX Tokenizer:
- 计数: 452432
- 平均值: 868.642
- 标准差: 4791.71
- 最小值: 3
- 25%分位数: 88
- 50%分位数: 232
- 75%分位数: 590
- 最大值: 1.39747e+06



