five

DBL/test

收藏
Hugging Face2022-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DBL/test
下载链接
链接失效反馈
官方服务:
资源简介:
WikiText语言建模数据集是从维基百科的优质和特色文章中提取的,包含超过1亿个标记。与Penn Treebank (PTB)预处理版本相比,WikiText-2的规模是其2倍以上,WikiText-103的规模是其110倍以上。WikiText数据集还保留了原始的大小写、标点符号和数字,这些在PTB中都被移除了。由于数据集由完整的文章组成,因此非常适合能够利用长期依赖关系的模型。
提供机构:
DBL
原始信息汇总

数据集概述

数据集名称

WikiText语言建模数据集

数据来源

该数据集包含超过1亿个词汇,提取自维基百科中经过验证的优秀和特色文章。

授权许可

数据集根据Creative Commons Attribution-ShareAlike License提供。

数据集特点

  • 与预处理的Penn Treebank(PTB)相比,WikiText-2规模是其两倍以上,WikiText-103规模是其110倍以上。
  • 拥有更大的词汇量。
  • 保留了原始的大小写、标点和数字,这些在PTB中均被移除。
  • 由完整文章组成,适合需要利用长期依赖关系的模型。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作