tiny shakespeare

Name: tiny shakespeare
Creator: 阿里云天池
Published: 2026-05-14 21:05:34
License: 暂无描述

阿里云天池2026-05-14 更新2024-09-07 收录

下载链接：

https://tianchi.aliyun.com/dataset/185355

下载链接

链接失效反馈

官方服务：

资源简介：

链接：https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt tiny shakespeare数据集，仅仅用于训练gpt的原型！ tiny shakespeare数据集，仅仅用于训练gpt的原型！ tiny shakespeare数据集，仅仅用于训练gpt的原型！ tiny shakespeare数据集，仅仅用于训练gpt的原型！ tiny shakespeare数据集，仅仅用于训练gpt的原型！ tiny shakespeare数据集，仅仅用于训练gpt的原型！数据来源通过Andrej Karpathy的nanogpt库从上述的链接下载数据格式整个数据集分为训练集（90%）和测试集（10%）。所有行最多包含1024个标记，使用Llama 2的分词器。所有行都被整齐地拆分，以确保句子完整且未被打断。 Data source Downloaded via Andrej Karpathy's nanogpt repo from the link above Data Format The entire dataset is split into train (90%) and test (10%). All rows are at most 1024 tokens, using the Llama 2 tokenizer. All rows are split cleanly so that sentences are whole and unbroken.

提供机构：

阿里云天池

创建时间：

2024-09-01

搜集汇总

数据集介绍