pszemraj/simplepile-lite

Name: pszemraj/simplepile-lite
Creator: pszemraj
Published: 2023-10-04 07:50:40
License: 暂无描述

Hugging Face2023-10-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pszemraj/simplepile-lite

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为simplepile-lite，是一个用于填充掩码和文本生成任务的英文文本数据集。它由两个源数据集pszemraj/simple_wikipedia_LM和JeanKaddour/minipile组成，采用first exhausted策略进行交织。数据集包含训练、验证和测试三个分割，总共有452432个训练示例，1000个验证示例和11908个测试示例。每个示例的特征是文本，数据类型为字符串。数据集的总大小为1596970717字节，下载大小为867798625字节。使用GPTNeoX Tokenizer对训练集进行的分词统计显示，平均每个示例有868.642个token，标准差为4791.71，最小值为3，最大值为1397470。

提供机构：

pszemraj

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
数据集大小: 100K<n<1M
语言: 英语

数据来源

pszemraj/simple_wikipedia_LM
JeanKaddour/minipile

任务类别

填空
文本生成

配置

配置名称: default
数据文件:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*

数据集信息

特征:
- 名称: text
- 数据类型: string
分割:
- 训练集:
  - 字节数: 1552622685
  - 样本数: 452432
- 验证集:
  - 字节数: 3202346
  - 样本数: 1000
- 测试集:
  - 字节数: 41145686
  - 样本数: 11908
下载大小: 867798625
数据集大小: 1596970717

数据集字典

python DatasetDict({ train: Dataset({ features: [text], num_rows: 452432 }) validation: Dataset({ features: [text], num_rows: 1000 }) test: Dataset({ features: [text], num_rows: 11908 }) })

训练集的Token统计

使用GPTNeoX Tokenizer:
- 计数: 452432
- 平均值: 868.642
- 标准差: 4791.71
- 最小值: 3
- 25%分位数: 88
- 50%分位数: 232
- 75%分位数: 590
- 最大值: 1.39747e+06

5,000+

优质数据集

54 个

任务类型

进入经典数据集