five

tiny shakespeare

收藏
阿里云天池2026-05-14 更新2024-09-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/185355
下载链接
链接失效反馈
官方服务:
资源简介:
链接:https://raw.githubusercontent.com/karpathy/char-rnn/master/data/tinyshakespeare/input.txt tiny shakespeare数据集,仅仅用于训练gpt的原型! tiny shakespeare数据集,仅仅用于训练gpt的原型! tiny shakespeare数据集,仅仅用于训练gpt的原型! tiny shakespeare数据集,仅仅用于训练gpt的原型! tiny shakespeare数据集,仅仅用于训练gpt的原型! tiny shakespeare数据集,仅仅用于训练gpt的原型! 数据来源 通过Andrej Karpathy的nanogpt库从上述的链接下载 数据格式 整个数据集分为训练集(90%)和测试集(10%)。 所有行最多包含1024个标记,使用Llama 2的分词器。 所有行都被整齐地拆分,以确保句子完整且未被打断。 Data source Downloaded via Andrej Karpathy's nanogpt repo from the link above Data Format The entire dataset is split into train (90%) and test (10%). All rows are at most 1024 tokens, using the Llama 2 tokenizer. All rows are split cleanly so that sentences are whole and unbroken.
提供机构:
阿里云天池
创建时间:
2024-09-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
tiny shakespeare数据集专用于训练GPT模型原型,数据来源于Andrej Karpathy的nanogpt库。该数据集被划分为90%的训练集和10%的测试集,采用Llama 2分词器处理,每行最多包含1024个标记,且句子拆分保持完整。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作