eaglewatch/Korean_Wikipedia_Dataset_for_GPT2_August_2022
收藏Hugging Face2024-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/eaglewatch/Korean_Wikipedia_Dataset_for_GPT2_August_2022
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含截至2022年8月1日的韩语维基百科全文,专门用于GPT-2模型的预训练。数据集包含334,420条训练文章和83,605条验证文章,数据字段为text,数据分割按照帕累托原则随机分为80%训练集和20%验证集。数据来源于维基百科,由Yongwoo Jeong管理。
提供机构:
eaglewatch
原始信息汇总
数据集卡片 for korean_wikipedia_dataset_for_GPT2
数据集描述
数据集摘要
这是用于制作预训练的GPT-2韩语模型的数据集。
语言
韩语
数据集结构
数据实例
- 训练维基百科文章数量:334420
- 验证维基百科文章数量:83605
数据字段
- text
数据分割
80% vs. 20%,根据帕累托原则随机分配。
数据集创建
源数据
维基百科
其他信息
数据集策展人
Yongwoo Jeong



