five

eaglewatch/Korean_Wikipedia_Dataset_for_GPT2_August_2022

收藏
Hugging Face2024-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eaglewatch/Korean_Wikipedia_Dataset_for_GPT2_August_2022
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含截至2022年8月1日的韩语维基百科全文,专门用于GPT-2模型的预训练。数据集包含334,420条训练文章和83,605条验证文章,数据字段为text,数据分割按照帕累托原则随机分为80%训练集和20%验证集。数据来源于维基百科,由Yongwoo Jeong管理。
提供机构:
eaglewatch
原始信息汇总

数据集卡片 for korean_wikipedia_dataset_for_GPT2

数据集描述

数据集摘要

这是用于制作预训练的GPT-2韩语模型的数据集。

语言

韩语

数据集结构

数据实例

  • 训练维基百科文章数量:334420
  • 验证维基百科文章数量:83605

数据字段

  • text

数据分割

80% vs. 20%,根据帕累托原则随机分配。

数据集创建

源数据

维基百科

其他信息

数据集策展人

Yongwoo Jeong

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作