teneriffa/kowikitext-20240301
收藏Hugging Face2024-03-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/teneriffa/kowikitext-20240301
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过使用GitHub上的代码从韩语维基百科创建的,数据源来自维基媒体基金会的特定日期(20240301)的韩语维基百科文章和索引文件。数据集的版权遵循CC-BY-SA-4.0许可。由于数据集的大小较大(8GB),因此进行了压缩处理。
该数据集是通过使用GitHub上的代码从韩语维基百科创建的,数据源来自维基媒体基金会的特定日期(20240301)的韩语维基百科文章和索引文件。数据集的版权遵循CC-BY-SA-4.0许可。由于数据集的大小较大(8GB),因此进行了压缩处理。
提供机构:
teneriffa
原始信息汇总
数据集概述
数据集来源
- 该数据集是通过使用位于 https://github.com/lovit/kowikitext 的代码创建的,源自韩国维基百科(https://ko.wikipedia.org)。
数据源文件
- 数据集的数据原始文件包括:
- https://dumps.wikimedia.org/kowiki/20240301/kowiki-20240301-pages-articles-multistream.xml.bz2
- https://dumps.wikimedia.org/kowiki/20240301/kowiki-20240301-pages-articles-multistream-index.txt.bz2
版权信息
- 数据集的版权遵循韩国维基百科的版权声明,即 CC-BY-SA-4.0。
数据集大小
kowikipedia_20240301.train文件大小为 8GB,因体积较大已进行 zip 压缩。



