stanford-cs336/owt-sample

Name: stanford-cs336/owt-sample
Creator: stanford-cs336
Published: 2024-04-01 19:52:51
License: 暂无描述

Hugging Face2024-04-01 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/stanford-cs336/owt-sample

下载链接

链接失效反馈

官方服务：

资源简介：

These files were created with the following script: ```python from datasets import load_dataset from tqdm import tqdm import io dataset = load_dataset("Skylion007/openwebtext")['train'] split_dataset = dataset.train_test_split(train_size=2400000, test_size=60000, seed=0) with io.open('data/owt_train.txt','w') as fopen: listout = [] for data in tqdm(split_dataset['train']): listout.append(data['text']+'<|endoftext|>') if len(listout) > 1000: _ = fopen.write(''.join(listout)) listout = [] with io.open('data/owt_valid.txt','w') as fopen: listout = [] for data in tqdm(split_dataset['test']): listout.append(data['text']+'<|endoftext|>') if len(listout) > 1000: _ = fopen.write(''.join(listout)) listout = [] ```

提供机构：

stanford-cs336

原始信息汇总

数据集概述

数据集来源

原始数据集：Skylion007/openwebtext
数据类型：train

数据处理

使用Python脚本进行数据处理。
数据分割：将原始数据集分割为训练集和测试集。
- 训练集大小：2,400,000条记录
- 测试集大小：60,000条记录
- 随机种子：0

数据存储

训练集存储文件：data/owt_train.txt
测试集存储文件：data/owt_valid.txt
存储格式：文本文件，每条记录以<|endoftext|>结尾。

数据处理逻辑

遍历分割后的数据集，将每条记录的text字段添加到列表中。
当列表长度达到1,000时，将列表内容写入文件，并清空列表。

5,000+

优质数据集

54 个

任务类型

进入经典数据集