MarkrAI/KoCommercial-Dataset

Name: MarkrAI/KoCommercial-Dataset
Creator: MarkrAI
Published: 2024-03-22 09:22:58
License: 暂无描述

Hugging Face2024-03-22 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/MarkrAI/KoCommercial-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

KoCommercial-Dataset是一个包含约1.44M条数据的数据集，采用MIT许可证。该数据集包含多个子数据集，如KOpen-platypus、KoAlpaca-v1.1a、WIKI_QA_Near_dedup等，这些数据集均可用于商业用途。数据集的生成方法包括自监督学习方法，如摘要与指令-回答、句子顺序推理、原始句子推理、最后一句预测、多问题回答和掩码预测等。

提供机构：

MarkrAI

原始信息汇总

数据集概述

基本信息

语言: 韩语 (ko)
许可证: MIT
配置:
- 配置名称: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

数据集详情

特征:
- 名称: input, instruction, output
- 数据类型: string
分割:
- 名称: train
- 字节数: 187990458
- 示例数量: 175454
下载大小: 110149618
数据集大小: 187990458

数据集内容

数据集数量: 约1.44M
数据集列表:
1. kyujinpy/KOpen-platypus (*除非商业数据集外)
2. beomi/KoAlpaca-v1.1a
3. HumanF-MarkrAI/WIKI_QA_Near_dedup
4. KorQuadv1.0
5. AIHUB (通过GitHub地址生成数据)
- 一般常识句子生成数据
- 书籍资料摘要
- 论文资料摘要
- 文档摘要文本

自监督方法

默认: Summary & Instruction-Answer
句子顺序推理
原始句子推理
最后句子预测
多问题
掩码预测

5,000+

优质数据集

54 个

任务类型

进入经典数据集