EleutherAI/wikitext_document_level

Name: EleutherAI/wikitext_document_level
Creator: EleutherAI
Published: 2024-12-12 14:22:15
License: 暂无描述

Hugging Face2024-12-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EleutherAI/wikitext_document_level

下载链接

链接失效反馈

官方服务：

资源简介：

WikiText语言建模数据集是一个包含超过1亿个词汇的数据集，这些词汇是从维基百科的已验证优秀和特色文章中提取的。该数据集比预处理的Penn Treebank（PTB）大两倍以上，拥有更大的词汇量，并保留了原始的大小写、标点和数字。由于由完整的文章组成，该数据集非常适合能够利用长期依赖性的模型。数据集根据Creative Commons Attribution-ShareAlike许可证提供。

提供机构：

EleutherAI

原始信息汇总

数据集概述

数据集名称

名称: Wikitext Document Level

数据集描述

描述: 该数据集是从Wikipedia的Good和Featured文章中提取的超过100 million tokens的集合，保留了原始的文本格式，包括大小写、标点和数字。
适用任务: 适用于需要利用长期依赖的语言模型。
语言: 未明确指出。

数据集结构

数据实例: 包含多个子集，如wikitext-103-raw-v1, wikitext-103-v1, wikitext-2-raw-v1, wikitext-2-v1。
数据字段: 所有子集均包含text字段，类型为string。
数据分割: 每个子集都包含训练集、验证集和测试集。

数据集创建

来源数据: 数据来源于Wikipedia的Good和Featured文章。
许可证: 数据集遵循Creative Commons Attribution-ShareAlike License (CC BY-SA 4.0)。

使用注意事项

社会影响和偏见: 未提供具体信息。
其他已知限制: 未提供具体信息。

附加信息

数据集维护者: 未明确指出。
引用信息: 引用时需使用提供的文献信息。
贡献者: 感谢@thomwolf, @lewtun, @patrickvonplaten, @mariamabarham的贡献。

5,000+

优质数据集

54 个

任务类型

进入经典数据集