five

WikiText-2

收藏
OpenXLab2026-04-18 收录
下载链接:
https://openxlab.org.cn/datasets/OpenDataLab/WikiText-2
下载链接
链接失效反馈
官方服务:
资源简介:
WikiText 语言建模数据集是从 Wikipedia 上经过验证的 Good 和 Featured 文章集中提取的超过 1 亿个标记的集合。该数据集在 Creative Commons Attribution-ShareAlike License 下可用。与 Penn Treebank (PTB) 的预处理版本相比,WikiText-2 大 2 倍以上,WikiText-103 大 110 倍以上。 WikiText 数据集还具有更大的词汇量,并保留了原始大小写、标点符号和数字——所有这些都在 PTB 中被删除。由于它由完整的文章组成,因此该数据集非常适合可以利用长期依赖关系的模型。
提供机构:
OpenDataLab
创建时间:
2022-04-28
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作