five

EleutherAI/wikitext_document_level

收藏
Hugging Face2024-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EleutherAI/wikitext_document_level
下载链接
链接失效反馈
官方服务:
资源简介:
WikiText语言建模数据集是一个包含超过1亿个词汇的数据集,这些词汇是从维基百科的已验证优秀和特色文章中提取的。该数据集比预处理的Penn Treebank(PTB)大两倍以上,拥有更大的词汇量,并保留了原始的大小写、标点和数字。由于由完整的文章组成,该数据集非常适合能够利用长期依赖性的模型。数据集根据Creative Commons Attribution-ShareAlike许可证提供。

WikiText语言建模数据集是一个包含超过1亿个词汇的数据集,这些词汇是从维基百科的已验证优秀和特色文章中提取的。该数据集比预处理的Penn Treebank(PTB)大两倍以上,拥有更大的词汇量,并保留了原始的大小写、标点和数字。由于由完整的文章组成,该数据集非常适合能够利用长期依赖性的模型。数据集根据Creative Commons Attribution-ShareAlike许可证提供。
提供机构:
EleutherAI
原始信息汇总

数据集概述

数据集名称

  • 名称: Wikitext Document Level

数据集描述

  • 描述: 该数据集是从Wikipedia的Good和Featured文章中提取的超过100 million tokens的集合,保留了原始的文本格式,包括大小写、标点和数字。
  • 适用任务: 适用于需要利用长期依赖的语言模型。
  • 语言: 未明确指出。

数据集结构

  • 数据实例: 包含多个子集,如wikitext-103-raw-v1, wikitext-103-v1, wikitext-2-raw-v1, wikitext-2-v1。
  • 数据字段: 所有子集均包含text字段,类型为string
  • 数据分割: 每个子集都包含训练集、验证集和测试集。

数据集创建

使用注意事项

  • 社会影响和偏见: 未提供具体信息。
  • 其他已知限制: 未提供具体信息。

附加信息

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作