five

stanford-cs336/owt-sample

收藏
Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/stanford-cs336/owt-sample
下载链接
链接失效反馈
官方服务:
资源简介:
These files were created with the following script: ```python from datasets import load_dataset from tqdm import tqdm import io dataset = load_dataset("Skylion007/openwebtext")['train'] split_dataset = dataset.train_test_split(train_size=2400000, test_size=60000, seed=0) with io.open('data/owt_train.txt','w') as fopen: listout = [] for data in tqdm(split_dataset['train']): listout.append(data['text']+'<|endoftext|>') if len(listout) > 1000: _ = fopen.write(''.join(listout)) listout = [] with io.open('data/owt_valid.txt','w') as fopen: listout = [] for data in tqdm(split_dataset['test']): listout.append(data['text']+'<|endoftext|>') if len(listout) > 1000: _ = fopen.write(''.join(listout)) listout = [] ```
提供机构:
stanford-cs336
原始信息汇总

数据集概述

数据集来源

  • 原始数据集:Skylion007/openwebtext
  • 数据类型:train

数据处理

  • 使用Python脚本进行数据处理。
  • 数据分割:将原始数据集分割为训练集和测试集。
    • 训练集大小:2,400,000条记录
    • 测试集大小:60,000条记录
    • 随机种子:0

数据存储

  • 训练集存储文件:data/owt_train.txt
  • 测试集存储文件:data/owt_valid.txt
  • 存储格式:文本文件,每条记录以<|endoftext|>结尾。

数据处理逻辑

  • 遍历分割后的数据集,将每条记录的text字段添加到列表中。
  • 当列表长度达到1,000时,将列表内容写入文件,并清空列表。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作