karpathy/tiny_shakespeare

Name: karpathy/tiny_shakespeare
Creator: karpathy
Published: 2024-01-18 11:17:14
License: 暂无描述

Hugging Face2024-01-18 更新2024-04-20 收录

下载链接：

https://hf-mirror.com/datasets/karpathy/tiny_shakespeare

下载链接

链接失效反馈

官方服务：

资源简介：

TinyShakespeare数据集包含了莎士比亚多部戏剧中的40,000行文本，主要用于字符建模等任务。数据集的下载文件大小为1.11 MB，生成的数据集大小也为1.11 MB，总共占用2.23 MB的磁盘空间。数据集分为训练集、验证集和测试集，每个部分都包含一个数据实例。数据字段为`text`，类型为字符串。

The TinyShakespeare dataset contains 40,000 lines of text from multiple plays by William Shakespeare, and is primarily designed for tasks such as character-level modeling. The downloaded archive of the dataset is 1.11 MB, and the generated dataset also occupies 1.11 MB, resulting in a total disk footprint of 2.23 MB. The dataset is split into training, validation, and test sets, each containing one data instance. The data field is named `text`, with a string data type.

提供机构：

karpathy

原始信息汇总

数据集概述

数据集名称

名称: TinyShakespeare

数据集特征

特征:
- text: 数据类型为string。

数据集拆分

拆分详情:
- train: 1个示例，占用1003864字节。
- validation: 1个示例，占用55780字节。
- test: 1个示例，占用55780字节。

数据集大小

下载大小: 1115394字节。
数据集大小: 1115424字节。

数据集描述

描述: 包含40,000行来自莎士比亚各种戏剧的文本，用于如字符建模等任务。

数据集示例

示例:

{ "text": "First Citizen: Before we proceed any further, hear me " }

数据集使用示例

使用示例: python d = datasets.load_dataset(name=tiny_shakespeare)[train] d = d.map(lambda x: datasets.Value(strings).unicode_split(x[text], UTF-8)) vocabulary = sorted(set(next(iter(d)).numpy())) d = d.map(lambda x: {cur_char: x[:-1], next_char: x[1:]}) d = d.unbatch() seq_len = 100 batch_size = 2 d = d.batch(seq_len) d = d.batch(batch_size)

引用信息

@misc{ author={Karpathy, Andrej}, title={char-rnn}, year={2015}, howpublished={url{https://github.com/karpathy/char-rnn}} }

搜集汇总

数据集介绍

构建方式

TinyShakespeare数据集的构建基于莎士比亚的经典戏剧作品，精选了40,000行文本，涵盖了多种戏剧内容。该数据集的构建旨在为自然语言处理领域的研究提供一个经典的文本资源，特别是用于字符级别的建模任务。数据集的划分包括训练、验证和测试三个部分，每个部分均包含一个样本，便于研究人员进行模型训练和评估。

特点

TinyShakespeare数据集的主要特点在于其文本的独特性和经典性，源自莎士比亚的戏剧作品，具有高度的文学价值和语言复杂性。此外，数据集的规模适中，适合用于小规模实验和快速验证模型性能。数据集的结构简单，仅包含一个字符串类型的文本字段，便于处理和分析。

使用方法

使用TinyShakespeare数据集时，研究人员可以通过加载数据集并进行字符级别的分割和处理，以适应不同的自然语言处理任务，如字符级别的语言模型训练。数据集的加载和处理可以通过HuggingFace的datasets库实现，具体步骤包括加载数据、分割字符、构建词汇表以及批处理等操作，以满足不同模型的输入需求。

背景与挑战

背景概述

TinyShakespeare数据集由Andrej Karpathy于2015年创建，旨在探索循环神经网络（RNN）在文本生成任务中的有效性。该数据集包含了莎士比亚作品中的40,000行文本，涵盖了多种戏剧作品。其核心研究问题是如何利用这些经典文学作品中的文本数据，训练模型以生成类似莎士比亚风格的文本。这一研究不仅推动了自然语言处理领域的发展，还为文学创作和语言模型研究提供了宝贵的资源。

当前挑战

TinyShakespeare数据集的主要挑战在于其规模较小，仅包含40,000行文本，这限制了模型在复杂语言模式上的学习能力。此外，数据集的单一语言（英语）和特定文学风格（莎士比亚风格）也带来了一定的局限性，使得模型在泛化到其他语言或风格时表现不佳。在构建过程中，如何从原始文本中提取有效的特征并确保数据的质量和一致性，也是一项重要的挑战。

常用场景

经典使用场景

在自然语言处理领域，karpathy/tiny_shakespeare数据集常用于字符级语言模型的训练与评估。该数据集包含了莎士比亚作品中的40,000行文本，适用于研究字符序列的生成与预测。通过构建字符级别的模型，研究者能够探索文本生成的复杂性，尤其是在处理古典文学文本时，如何捕捉语言的韵律与结构。

解决学术问题

该数据集解决了字符级语言模型在古典文学文本上的应用问题，尤其是在处理长文本序列时，如何有效捕捉字符间的依赖关系。通过使用该数据集，研究者能够验证模型在生成连贯、富有文学性的文本方面的能力，进而推动自然语言生成技术的发展。此外，该数据集也为研究者提供了一个标准化的基准，用于比较不同模型的性能。

衍生相关工作

基于karpathy/tiny_shakespeare数据集，研究者们开发了多种字符级语言模型，并在该数据集上进行了广泛的实验与验证。例如，Andrej Karpathy在其博客中详细介绍了如何使用该数据集训练循环神经网络（RNN），并展示了其在文本生成方面的显著效果。此外，该数据集还激发了其他研究者对古典文学文本处理的研究兴趣，推动了相关领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集