Multilingual Wikipedia
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/karpathy/nanoGPT
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多语言数据集,包含了英语、德语、法语和意大利语的文档,其规模达到了170亿个标记,旨在应对语言建模的任务。
This multilingual dataset contains documents in English, German, French and Italian, with a total of 17 billion tokens, and is designed to address language modeling tasks.



