EleutherAI/wikitext_document_level
收藏Hugging Face2024-12-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EleutherAI/wikitext_document_level
下载链接
链接失效反馈官方服务:
资源简介:
WikiText语言建模数据集是一个包含超过1亿个词汇的数据集,这些词汇是从维基百科的已验证优秀和特色文章中提取的。该数据集比预处理的Penn Treebank(PTB)大两倍以上,拥有更大的词汇量,并保留了原始的大小写、标点和数字。由于由完整的文章组成,该数据集非常适合能够利用长期依赖性的模型。数据集根据Creative Commons Attribution-ShareAlike许可证提供。
WikiText语言建模数据集是一个包含超过1亿个词汇的数据集,这些词汇是从维基百科的已验证优秀和特色文章中提取的。该数据集比预处理的Penn Treebank(PTB)大两倍以上,拥有更大的词汇量,并保留了原始的大小写、标点和数字。由于由完整的文章组成,该数据集非常适合能够利用长期依赖性的模型。数据集根据Creative Commons Attribution-ShareAlike许可证提供。
提供机构:
EleutherAI
原始信息汇总
数据集概述
数据集名称
- 名称: Wikitext Document Level
数据集描述
- 描述: 该数据集是从Wikipedia的Good和Featured文章中提取的超过100 million tokens的集合,保留了原始的文本格式,包括大小写、标点和数字。
- 适用任务: 适用于需要利用长期依赖的语言模型。
- 语言: 未明确指出。
数据集结构
- 数据实例: 包含多个子集,如wikitext-103-raw-v1, wikitext-103-v1, wikitext-2-raw-v1, wikitext-2-v1。
- 数据字段: 所有子集均包含
text字段,类型为string。 - 数据分割: 每个子集都包含训练集、验证集和测试集。
数据集创建
- 来源数据: 数据来源于Wikipedia的Good和Featured文章。
- 许可证: 数据集遵循Creative Commons Attribution-ShareAlike License (CC BY-SA 4.0)。
使用注意事项
- 社会影响和偏见: 未提供具体信息。
- 其他已知限制: 未提供具体信息。
附加信息
- 数据集维护者: 未明确指出。
- 引用信息: 引用时需使用提供的文献信息。
- 贡献者: 感谢@thomwolf, @lewtun, @patrickvonplaten, @mariamabarham的贡献。



