tiny shakespeare
收藏阿里云天池2026-05-14 更新2024-09-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/185355
下载链接
链接失效反馈官方服务:
资源简介:
链接:https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt
tiny shakespeare数据集,仅仅用于训练gpt的原型!
tiny shakespeare数据集,仅仅用于训练gpt的原型!
tiny shakespeare数据集,仅仅用于训练gpt的原型!
tiny shakespeare数据集,仅仅用于训练gpt的原型!
tiny shakespeare数据集,仅仅用于训练gpt的原型!
tiny shakespeare数据集,仅仅用于训练gpt的原型!
数据来源
通过Andrej Karpathy的nanogpt库从上述的链接下载
数据格式
整个数据集分为训练集(90%)和测试集(10%)。
所有行最多包含1024个标记,使用Llama 2的分词器。
所有行都被整齐地拆分,以确保句子完整且未被打断。
Data source
Downloaded via Andrej Karpathy's nanogpt repo from the link above
Data Format
The entire dataset is split into train (90%) and test (10%).
All rows are at most 1024 tokens, using the Llama 2 tokenizer.
All rows are split cleanly so that sentences are whole and unbroken.
提供机构:
阿里云天池
创建时间:
2024-09-01
搜集汇总
数据集介绍

背景与挑战
背景概述
tiny shakespeare数据集专用于训练GPT模型原型,数据来源于Andrej Karpathy的nanogpt库。该数据集被划分为90%的训练集和10%的测试集,采用Llama 2分词器处理,每行最多包含1024个标记,且句子拆分保持完整。
以上内容由遇见数据集搜集并总结生成



