mindchain/wikitext2

Name: mindchain/wikitext2
Creator: mindchain
Published: 2023-09-26 19:13:55
License: 暂无描述

Hugging Face2023-09-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mindchain/wikitext2

下载链接

链接失效反馈

官方服务：

资源简介：

WikiText语言建模数据集是从维基百科的优质文章中提取的超过1亿个标记的集合。该数据集在Creative Commons Attribution-ShareAlike许可下可用。与预处理版的Penn Treebank（PTB）相比，WikiText-2的规模是其两倍以上，而WikiText-103的规模是其110倍以上。WikiText数据集还拥有更大的词汇量，并保留了原始的大小写、标点和数字，这些在PTB中都被移除了。由于它由完整的文章组成，该数据集非常适合能够利用长期依赖的模型。每个子集有两种不同的变体：原始（用于字符级工作）包含原始标记，非原始（用于词级工作）仅包含词汇表中的标记，词汇表外的标记已被替换为<unk>标记。

提供机构：

mindchain

原始信息汇总

WikiText 数据集概述

基本信息

数据集名称: WikiText
语言: 英语（en）
许可证: CC BY-SA 3.0 和 GFDL
多语言性: 单语种（monolingual）
数据集大小: 1M<n<10M
源数据: 原始数据（original）
任务类别: 文本生成（text-generation）、填充掩码（fill-mask）
任务ID: 语言建模（language-modeling）、掩码语言建模（masked-language-modeling）

数据集配置

wikitext-103-v1

特征:
- text: 字符串类型（string）
分割:
- test: 1295579 字节，4358 个样本
- train: 545142639 字节，1801350 个样本
- validation: 1154755 字节，3760 个样本
下载大小: 190229076 字节
数据集大小: 547592973 字节

wikitext-2-v1

特征:
- text: 字符串类型（string）
分割:
- test: 1270951 字节，4358 个样本
- train: 10918134 字节，36718 个样本
- validation: 1134127 字节，3760 个样本
下载大小: 4475746 字节
数据集大小: 13323212 字节

wikitext-103-raw-v1

特征:
- text: 字符串类型（string）
分割:
- test: 1305092 字节，4358 个样本
- train: 546501673 字节，1801350 个样本
- validation: 1159292 字节，3760 个样本
下载大小: 191984949 字节
数据集大小: 548966057 字节

wikitext-2-raw-v1

特征:
- text: 字符串类型（string）
分割:
- test: 1305092 字节，4358 个样本
- train: 11061733 字节，36718 个样本
- validation: 1159292 字节，3760 个样本
下载大小: 4721645 字节
数据集大小: 13526117 字节

数据集结构

数据实例

wikitext-103-raw-v1:
- validation 示例: json { "text": "" The gold dollar or gold one @-@ dollar piece was a coin struck as a regular issue by the United States Bureau of the Mint from..." }
wikitext-103-v1:
- train 示例: json { "text": "" Senjō no Valkyria 3 : <unk> Chronicles ( Japanese : 戦場のヴァルキュリア3 , lit . Valkyria of the Battlefield 3 ) , commonly referred to..." }
wikitext-2-raw-v1:
- train 示例: json { "text": "" The Sinclair Scientific Programmable was introduced in 1975 , with the same case as the Sinclair Oxford . It was larger than t..." }
wikitext-2-v1:
- train 示例: json { "text": "" Senjō no Valkyria 3 : <unk> Chronicles ( Japanese : 戦場のヴァルキュリア3 , lit . Valkyria of the Battlefield 3 ) , commonly referred to..." }

数据字段

text: 字符串类型（string）

数据分割

配置名称	train	validation	test
wikitext-103-raw-v1	1801350	3760	4358
wikitext-103-v1	1801350	3760	4358
wikitext-2-raw-v1	36718	3760	4358
wikitext-2-v1	36718	3760	4358

搜集汇总

数据集介绍

构建方式

WikiText语言模型数据集是通过从维基百科上验证过的优质和特色文章中提取超过1亿个标记构建而成。该数据集分为多个子集，包括原始字符级和词汇级别的变体，以适应不同层次的语言模型训练需求。数据集的构建注重于长距离依赖性的建模，因此保留了原始的大小写、标点和数字信息。

特点

该数据集的特点在于其庞大的词汇量、丰富的文本长度和长距离依赖性，适用于训练能够处理长期依赖关系的模型。它包含了两种版本：原始版本和非原始版本，原始版本适用于字符级别的任务，而非原始版本则适用于词汇级别的任务。所有数据均遵循Creative Commons Attribution-ShareAlike许可证。

使用方法

使用该数据集时，用户可以根据需要选择不同的子集和版本。对于需要训练长距离依赖模型的用户，可以选择原始字符级数据集；对于关注词汇级别的任务，则可以选择处理过的词汇级数据集。数据集以字符串形式存储，便于处理和加载。

背景与挑战

背景概述

WikiText语言建模数据集，由Einstein AI团队创建于2016年，旨在为研究长期依赖语言模型提供支持。该数据集由超过一亿个token组成，源自维基百科上经过验证的优秀和特色文章。与Penn Treebank预处理版本相比，WikiText-2数据集规模是其两倍，而WikiText-103更是达到其110倍以上。该数据集保留了原始的大小写、标点和数字，适用于能够利用长期依赖性的模型。主要研究人员包括Stephen Merity等人，其研究论文《Pointer Sentinel Mixture Models》详细介绍了数据集的构建与应用。WikiText数据集对自然语言处理领域产生了显著影响，特别是在语言建模和文本生成任务中。

当前挑战

在构建过程中，数据集面临的主要挑战包括：1) 如何从大规模文本中有效提取并处理数据，以保持其原始语言特征；2) 如何平衡数据集中长期依赖性的建模与处理效率；3) 数据集的多样性和偏见问题，需要确保数据来源的广泛性和公平性。此外，对于所解决的领域问题，即语言建模中的长期依赖性，数据集需要能够提供足够的上下文信息，同时也要面对如何准确预测未知词汇的挑战。

常用场景

经典使用场景

在自然语言处理领域，WikiText数据集的经典使用场景主要集中于语言模型的训练与评估。其丰富的文本量和长距离依赖特性使得该数据集成为测试模型对长文本理解和生成能力的理想选择。研究者们通常利用WikiText-2进行语言模型的预训练，以捕获文本中的深层语义信息，进而提升模型在文本生成、填空等任务上的表现。

实际应用

在实际应用中，WikiText数据集的应用场景广泛，涵盖了机器翻译、文本摘要、搜索引擎、语音识别等多个领域。通过利用WikiText数据集训练的语言模型，可以显著提高这些应用中处理自然语言文本的准确性和流畅性。

衍生相关工作

基于WikiText数据集的研究衍生出了众多经典工作，包括但不限于Pointer Sentinel Mixture Models等模型的提出和发展。这些研究不仅推动了语言模型技术的进步，也为自然语言处理领域的理论研究和应用开发提供了新的视角和方法论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集