English, Finnish, Linux, Music

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/cedricdeboom/character-level-rnn-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

本仓库包含四个数据集，用于训练和评估字符级（基于RNN）语言模型。这些数据集非常多样化，应涵盖广泛的语义特征。英语数据集：我们整理了Project Gutenberg中的所有莎士比亚戏剧，总字符数为6,347,705，包含85个唯一字符。芬兰语数据集：我们从Project Gutenberg收集了芬兰剧作家Juhani Aho和Eino Leino的所有文本，总字符数为10,976,530，包含106个唯一字符。Linux数据集：我们保存了Linux内核的所有C代码，总字符数为6,546,665，包含97个唯一字符。音乐数据集：我们通过从MIDI文件中提取音乐笔记创建此数据集，总音符数为1,553,852，包含90个唯一音符。

This repository contains four datasets designed for training and evaluating character-level (RNN-based) language models. These datasets are highly diverse and are expected to cover a broad spectrum of semantic features. English Dataset: We have compiled all of Shakespeare's plays from Project Gutenberg, totaling 6,347,705 characters with 85 unique characters. Finnish Dataset: We collected all texts by Finnish playwrights Juhani Aho and Eino Leino from Project Gutenberg, totaling 10,976,530 characters with 106 unique characters. Linux Dataset: We preserved all C code from the Linux kernel, totaling 6,546,665 characters with 97 unique characters. Music Dataset: We created this dataset by extracting musical notes from MIDI files, totaling 1,553,852 notes with 90 unique notes.

创建时间：

2017-12-07

原始信息汇总

数据集概述

本数据集包含四个用于训练和评估字符级循环神经网络（RNN）的多样化数据集，涵盖了广泛的语义特征。

数据集详情

英语

来源：所有威廉·莎士比亚的剧本，从Project Gutenberg收集。
内容：剧本随机排序。
规模：总字符数为6,347,705，包含85个独特字符。

芬兰语

来源：芬兰剧作家Juhani Aho和Eino Leino的作品，从Project Gutenberg收集。
规模：总字符数为10,976,530，包含106个独特字符。

Linux

来源：Linux内核的所有C代码。
时间点：2016年11月22日。
规模：总字符数为6,546,665，包含97个独特字符。

音乐

来源：从MIDI文件中提取的音乐笔记，包括巴赫、贝多芬、肖邦和海顿的钢琴作品，从Classical Archives下载。
处理：移除了重复的作品。
规模：总音符数为1,553,852，包含90个独特音符。

搜集汇总

数据集介绍

构建方式

该数据集通过精心挑选和整合多种资源构建而成，旨在为字符级循环神经网络（RNN）的训练提供丰富的语言和音乐数据。具体而言，英语数据集由威廉·莎士比亚的所有戏剧文本组成，通过Project Gutenberg项目获取，确保了文本的连续性和多样性。芬兰语数据集则汇集了Juhani Aho和Eino Leino的戏剧作品，同样通过Project Gutenberg获取，展现了芬兰语独特的语言结构。Linux数据集则从Linux内核的C代码中提取，涵盖了2016年11月22日的所有内核代码，为编程语言的分析提供了详实的数据。音乐数据集则通过从MIDI文件中提取音乐笔记构建，涵盖了巴赫、贝多芬、肖邦和海顿的钢琴作品，确保了音乐序列的完整性和多样性。

特点

该数据集的显著特点在于其多样性和广泛性。英语和芬兰语数据集不仅涵盖了丰富的文学作品，还展示了不同语言的独特语法和词汇特征。Linux数据集则提供了编程语言的详实样本，适合用于分析代码结构和编程风格。音乐数据集通过提取MIDI文件中的音符，形成了一个连续的音乐序列，适合用于音乐生成和分析。每个数据集都具有较高的字符数量和独特的字符种类，确保了训练模型的广泛适用性和深度学习效果。

使用方法

该数据集主要用于字符级RNN模型的训练和评估，适用于自然语言处理和音乐生成等领域的研究。用户可以通过加载数据集，将其分割为训练集和测试集，然后利用RNN模型进行训练。在训练过程中，可以调整模型的超参数，如学习率、隐藏层节点数等，以优化模型的性能。训练完成后，可以使用测试集评估模型的准确性和生成效果。此外，该数据集还可用于探索不同语言和音乐风格的特征，为跨领域的研究提供支持。

背景与挑战

背景概述

在自然语言处理和机器学习领域，字符级循环神经网络（RNN）的研究日益受到关注。为了训练和评估这类模型，De Boom等人于2018年创建了一个包含四个不同数据集的资源库，分别涵盖英语、芬兰语、Linux内核代码和音乐MIDI文件。这些数据集的多样性旨在捕捉广泛的语法和语言特性，从而为字符级RNN模型的训练提供丰富的语料。其中，英语数据集由威廉·莎士比亚的所有戏剧组成，芬兰语数据集则汇集了Juhani Aho和Eino Leino的作品，Linux数据集包含Linux内核的所有C代码，而音乐数据集则提取了巴赫、贝多芬、肖邦和海顿的钢琴作品中的音符序列。这些数据集的创建不仅为语言模型研究提供了新的资源，也为跨领域的应用如代码生成和音乐创作提供了可能性。

当前挑战

尽管这些数据集为字符级RNN的研究提供了宝贵的资源，但在其构建和应用过程中仍面临诸多挑战。首先，不同语言的语法结构和字符集的差异性要求模型具备高度的适应性和泛化能力。其次，Linux内核代码和音乐MIDI文件的特殊性，如代码中的符号和音乐中的和弦处理，增加了数据预处理的复杂性。此外，数据集的规模和多样性虽然丰富，但也带来了计算资源和模型训练时间的挑战。最后，如何有效地利用这些数据集进行模型评估和比较，确保结果的可靠性和可重复性，也是研究者需要解决的问题。

常用场景

经典使用场景

该数据集主要用于字符级循环神经网络（RNN）的训练与评估，涵盖了英语、芬兰语、Linux内核代码以及音乐MIDI文件等多个领域。通过这些多样化的数据集，研究者可以深入探索不同语言和领域的字符级语言模型特性，尤其是在处理序列数据时，如何捕捉和建模复杂的语言结构和模式。

衍生相关工作

基于该数据集，研究者已开展了多项经典工作，包括字符级RNN模型的训练策略比较、跨语言和跨领域的模型迁移学习研究，以及在不同数据集上评估模型泛化能力的实验。这些工作不仅推动了字符级RNN的理论发展，也为实际应用提供了重要的技术支持。

数据集最近研究