WikiText-2
收藏OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/WikiText-2
下载链接
链接失效反馈官方服务:
资源简介:
WikiText 语言建模数据集是从 Wikipedia 上经过验证的 Good 和 Featured 文章集中提取的超过 1 亿个标记的集合。该数据集在 Creative Commons Attribution-ShareAlike License 下可用。与 Penn Treebank (PTB) 的预处理版本相比,WikiText-2 大 2 倍以上,WikiText-103 大 110 倍以上。 WikiText 数据集还具有更大的词汇量,并保留了原始大小写、标点符号和数字——所有这些都在 PTB 中被删除。由于它由完整的文章组成,因此该数据集非常适合可以利用长期依赖关系的模型。
提供机构:
OpenDataLab
创建时间:
2022-04-28



