five

teneriffa/kowikitext-20240301

收藏
Hugging Face2024-03-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/teneriffa/kowikitext-20240301
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过使用GitHub上的代码从韩语维基百科创建的,数据源来自维基媒体基金会的特定日期(20240301)的韩语维基百科文章和索引文件。数据集的版权遵循CC-BY-SA-4.0许可。由于数据集的大小较大(8GB),因此进行了压缩处理。

该数据集是通过使用GitHub上的代码从韩语维基百科创建的,数据源来自维基媒体基金会的特定日期(20240301)的韩语维基百科文章和索引文件。数据集的版权遵循CC-BY-SA-4.0许可。由于数据集的大小较大(8GB),因此进行了压缩处理。
提供机构:
teneriffa
原始信息汇总

数据集概述

数据集来源

  • 该数据集是通过使用位于 https://github.com/lovit/kowikitext 的代码创建的,源自韩国维基百科(https://ko.wikipedia.org)。

数据源文件

  • 数据集的数据原始文件包括:
    • https://dumps.wikimedia.org/kowiki/20240301/kowiki-20240301-pages-articles-multistream.xml.bz2
    • https://dumps.wikimedia.org/kowiki/20240301/kowiki-20240301-pages-articles-multistream-index.txt.bz2

版权信息

  • 数据集的版权遵循韩国维基百科的版权声明,即 CC-BY-SA-4.0。

数据集大小

  • kowikipedia_20240301.train 文件大小为 8GB,因体积较大已进行 zip 压缩。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作