MarkrAI/KoCommercial-Dataset
收藏Hugging Face2024-03-22 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/MarkrAI/KoCommercial-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
KoCommercial-Dataset是一个包含约1.44M条数据的数据集,采用MIT许可证。该数据集包含多个子数据集,如KOpen-platypus、KoAlpaca-v1.1a、WIKI_QA_Near_dedup等,这些数据集均可用于商业用途。数据集的生成方法包括自监督学习方法,如摘要与指令-回答、句子顺序推理、原始句子推理、最后一句预测、多问题回答和掩码预测等。
提供机构:
MarkrAI
原始信息汇总
数据集概述
基本信息
- 语言: 韩语 (ko)
- 许可证: MIT
- 配置:
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: data/train-*
数据集详情
- 特征:
- 名称: input, instruction, output
- 数据类型: string
- 分割:
- 名称: train
- 字节数: 187990458
- 示例数量: 175454
- 下载大小: 110149618
- 数据集大小: 187990458
数据集内容
- 数据集数量: 约1.44M
- 数据集列表:
- kyujinpy/KOpen-platypus (*除非商业数据集外)
- beomi/KoAlpaca-v1.1a
- HumanF-MarkrAI/WIKI_QA_Near_dedup
- KorQuadv1.0
- AIHUB (通过GitHub地址生成数据)
- 一般常识句子生成数据
- 书籍资料摘要
- 论文资料摘要
- 文档摘要文本
自监督方法
- 默认: Summary & Instruction-Answer
- 句子顺序推理
- 原始句子推理
- 最后句子预测
- 多问题
- 掩码预测



