DBL/test
收藏Hugging Face2022-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DBL/test
下载链接
链接失效反馈官方服务:
资源简介:
WikiText语言建模数据集是从维基百科的优质和特色文章中提取的,包含超过1亿个标记。与Penn Treebank (PTB)预处理版本相比,WikiText-2的规模是其2倍以上,WikiText-103的规模是其110倍以上。WikiText数据集还保留了原始的大小写、标点符号和数字,这些在PTB中都被移除了。由于数据集由完整的文章组成,因此非常适合能够利用长期依赖关系的模型。
提供机构:
DBL
原始信息汇总
数据集概述
数据集名称
WikiText语言建模数据集
数据来源
该数据集包含超过1亿个词汇,提取自维基百科中经过验证的优秀和特色文章。
授权许可
数据集根据Creative Commons Attribution-ShareAlike License提供。
数据集特点
- 与预处理的Penn Treebank(PTB)相比,WikiText-2规模是其两倍以上,WikiText-103规模是其110倍以上。
- 拥有更大的词汇量。
- 保留了原始的大小写、标点和数字,这些在PTB中均被移除。
- 由完整文章组成,适合需要利用长期依赖关系的模型。



