stanford-cs336/owt-sample
收藏Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/stanford-cs336/owt-sample
下载链接
链接失效反馈官方服务:
资源简介:
These files were created with the following script:
```python
from datasets import load_dataset
from tqdm import tqdm
import io
dataset = load_dataset("Skylion007/openwebtext")['train']
split_dataset = dataset.train_test_split(train_size=2400000, test_size=60000, seed=0)
with io.open('data/owt_train.txt','w') as fopen:
listout = []
for data in tqdm(split_dataset['train']):
listout.append(data['text']+'<|endoftext|>')
if len(listout) > 1000:
_ = fopen.write(''.join(listout))
listout = []
with io.open('data/owt_valid.txt','w') as fopen:
listout = []
for data in tqdm(split_dataset['test']):
listout.append(data['text']+'<|endoftext|>')
if len(listout) > 1000:
_ = fopen.write(''.join(listout))
listout = []
```
提供机构:
stanford-cs336
原始信息汇总
数据集概述
数据集来源
- 原始数据集:Skylion007/openwebtext
- 数据类型:train
数据处理
- 使用Python脚本进行数据处理。
- 数据分割:将原始数据集分割为训练集和测试集。
- 训练集大小:2,400,000条记录
- 测试集大小:60,000条记录
- 随机种子:0
数据存储
- 训练集存储文件:
data/owt_train.txt - 测试集存储文件:
data/owt_valid.txt - 存储格式:文本文件,每条记录以
<|endoftext|>结尾。
数据处理逻辑
- 遍历分割后的数据集,将每条记录的
text字段添加到列表中。 - 当列表长度达到1,000时,将列表内容写入文件,并清空列表。



