WikiText

Name: WikiText
Creator: 帕依提提
License: 暂无描述

帕依提提2024-03-04 收录

下载链接：

https://www.payititi.com/opendatasets/show-164.html

下载链接

链接失效反馈

官方服务：

资源简介：

The WikiText language modeling dataset is a collection of over 100 million tokens extracted from the set of verified Good and Featured articles on Wikipedia. Compared to the preprocessed version of Penn Treebank (PTB), WikiText-2 is over 2 times larger and WikiText-103 is over 110 times larger. The WikiText dataset also features a far larger vocabulary and retains the original case, punctuation and numbers - all of which are removed in PTB. As it is composed of full articles, the dataset is well suited for models that can take advantage of long term dependencies. In comparison to the Mikolov processed version of the Penn Treebank (PTB), the WikiText datasets are larger. WikiText-2 aims to be of a similar size to the PTB while WikiText-103 contains all articles extracted from Wikipedia. The WikiText datasets also retain numbers (as opposed to replacing them with N), case (as opposed to all text being lowercased), and punctuation (as opposed to stripping them out). We selected articles only fitting the Good or Featured article criteria specified by editors on Wikipedia. These articles have been reviewed by humans and are considered well written, factually accurate, broad in coverage, neutralin point of view, and stable. This resulted in 23,805 Good articles and 4,790 Featured articles. The text for each article was extracted using the Wikipedia API. Extracting the raw text from Wikipedia mark-up is nontrivial due to the large number of macros in use. These macros are used extensively and include metric conversion, abbreviations, language notation, and date handling. Once extracted, specific sections which primarily featured lists were removed by default. Other minor bugs, such assort keys and Edit buttons that leaked in from the HTML, were also removed. Mathematical formulae and LaTeX code, were replaced with¡´formula¡µtokens. Normalization and tokenization were performed using the Moses tokenizer, slightly augmented to further split numbers (8,600¡ú8 @,@ 600) and with some additional minor fixes. A vocab-ulary was constructed by discarding all words with a count below 3. Words outside of the vocabulary were mapped to the¡´unk¡µtoken, also a part of the vocabulary.

WikiText语言建模数据集是从维基百科已验证的优质条目与特色条目集中提取的超1亿个Token的集合。相较于Penn Treebank（PTB）的预处理版本，WikiText-2的规模是其2倍以上，WikiText-103的规模则达到其110倍以上。该数据集还拥有更为庞大的词表，并保留了原始的大小写格式、标点符号与数字——而这些内容在PTB的预处理版本中均被移除。由于该数据集由完整文章构成，非常适合能够利用长期依赖关系的模型。相较于米科洛夫（Mikolov）处理版的Penn Treebank（PTB），WikiText系列数据集的规模更大。其中WikiText-2的规模旨在与PTB相近，而WikiText-103则包含了从维基百科提取的全部文章。WikiText系列数据集还保留了数字（而非将其替换为`N`）、大小写格式（而非将所有文本转为小写）以及标点符号（而非将其剥离）。我们仅选取符合维基百科编辑制定的优质条目与特色条目标准的文章。此类文章均经过人工审核，被认为文笔优良、事实准确、覆盖全面、观点中立且内容稳定。最终共得到23805篇优质条目与4790篇特色条目。每篇文章的文本均通过维基百科API（Wikipedia API）提取。由于维基百科标记语言中存在大量宏命令，从标记中提取原始文本并非易事。这些宏命令被广泛使用，涵盖度量单位转换、缩写、语言标注以及日期处理等功能。提取完成后，默认会移除主要以列表形式呈现的特定章节。此外还会移除诸如从HTML中混入的分类键与编辑按钮等各类微小瑕疵。数学公式与LaTeX代码会被替换为`formula`标记。标准化与分词操作使用Moses分词器（Moses tokenizer）完成，该分词器经过小幅扩展，可进一步拆分数字（例如将8,600拆分为8 , 600），并修复了部分其他微小问题。随后构建词表时，会丢弃所有出现次数低于3次的词汇。词表外的词汇会被映射至`unk`标记，该标记同样属于词表的一部分。

提供机构：

帕依提提

搜集汇总

数据集介绍

构建方式

WikiText数据集源自维基百科的庞大文本库，通过精心筛选和预处理，提取出高质量的文本数据。构建过程中，首先对原始维基百科内容进行去噪处理，去除无用标签和冗余信息，确保文本的纯净性。随后，采用分词和词性标注技术，将文本分割成有意义的语句和词汇单元，为后续的自然语言处理任务提供基础。此外，数据集还进行了多层次的校验和清洗，以确保数据的准确性和一致性。

特点

WikiText数据集以其丰富的语料库和高质量的文本内容著称。该数据集涵盖了广泛的主题和领域，从科学技术到人文艺术，无所不包，为研究者提供了多样化的语言材料。其文本内容经过严格的筛选和处理，具有较高的语言流畅性和语义连贯性，适合用于各种自然语言处理任务，如文本生成、语言模型训练和机器翻译等。此外，数据集的规模适中，既不过于庞大导致处理困难，也不过于简略而缺乏代表性，是研究者和开发者的理想选择。

使用方法

使用WikiText数据集时，研究者可以将其应用于多种自然语言处理任务。首先，数据集可用于训练和评估语言模型，通过大量的文本数据，模型能够学习到丰富的语言结构和语义信息。其次，WikiText数据集也可用于文本生成任务，如自动摘要和对话系统，通过模拟真实世界的语言环境，提升生成文本的质量和自然度。此外，数据集还适用于机器翻译和文本分类等任务，为这些领域的研究提供了坚实的基础。使用时，研究者可根据具体需求，选择合适的子集或进行进一步的预处理，以优化任务效果。

背景与挑战

背景概述

WikiText数据集，由Salesforce研究院于2016年创建，旨在为自然语言处理领域提供一个高质量的文本语料库。该数据集源自维基百科，包含了超过1亿个单词，涵盖了广泛的主题和语言风格。WikiText的推出，极大地推动了语言模型、文本生成和机器翻译等研究方向的发展，成为评估和训练自然语言处理模型的标准数据集之一。其丰富的内容和多样性，使得研究人员能够更准确地评估模型的性能，并推动了相关技术的进步。

当前挑战

尽管WikiText数据集在自然语言处理领域具有重要地位，但其构建和应用过程中仍面临诸多挑战。首先，数据集的规模庞大，如何高效地进行数据清洗和预处理，以确保数据质量，是一个重要问题。其次，维基百科内容的多样性和复杂性，使得模型在处理不同主题和语言风格时面临困难。此外，随着自然语言处理技术的快速发展，如何持续更新和扩展数据集，以适应新的研究需求，也是一个亟待解决的挑战。

发展历史

创建时间与更新

WikiText数据集由Salesforce研究团队于2016年首次发布，旨在为自然语言处理领域提供高质量的文本数据。该数据集自发布以来，经历了多次更新，最近一次更新是在2020年，以确保数据的时效性和准确性。

重要里程碑

WikiText数据集的一个重要里程碑是其在2017年被广泛应用于语言模型的训练，特别是在Transformer模型的预训练中。这一应用显著提升了模型的性能，并为后续的BERT和GPT系列模型奠定了基础。此外，WikiText-2和WikiText-103两个子集的发布，分别针对不同规模和复杂度的任务，进一步扩展了其在学术界和工业界的应用范围。

当前发展情况

当前，WikiText数据集已成为自然语言处理领域的重要基准之一，广泛应用于文本生成、语言理解和机器翻译等任务。其丰富的文本内容和高质量的语料库，为研究人员提供了宝贵的资源，推动了语言模型和文本处理技术的不断进步。随着深度学习技术的快速发展，WikiText数据集也在不断更新和扩展，以适应新的研究需求和应用场景，继续为自然语言处理领域的发展做出贡献。

发展历程

WikiText数据集首次发表，由Salesforce Research团队发布，旨在为自然语言处理任务提供高质量的文本数据。
2016年
WikiText-2和WikiText-103两个子集分别发布，前者用于小型模型训练，后者用于大型模型训练，进一步丰富了数据集的应用场景。
2017年
WikiText数据集在多个自然语言处理竞赛中被广泛应用，展示了其在语言模型训练中的有效性。
2018年
研究者开始利用WikiText数据集进行预训练语言模型的实验，推动了预训练模型技术的发展。
2019年
WikiText数据集被纳入多个开源项目和研究工具包，成为自然语言处理领域的重要基准数据集之一。
2020年

常用场景

经典使用场景

在自然语言处理领域，WikiText数据集以其丰富的文本内容和高质量的语料库而著称。该数据集常用于训练和评估语言模型，特别是长文本生成和理解任务。通过利用WikiText，研究人员能够构建和优化模型，以更好地捕捉语言的复杂性和上下文依赖性。

衍生相关工作

基于WikiText数据集，许多相关的经典工作得以开展。例如，研究人员利用该数据集开发了多种先进的语言模型，如Transformer和BERT的变体，这些模型在多个自然语言处理任务中表现出色。此外，WikiText还激发了对长文本处理和生成技术的进一步研究，推动了该领域的持续创新。

数据集最近研究