DILAB-HYU/KoQuality
收藏Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DILAB-HYU/KoQuality
下载链接
链接失效反馈官方服务:
资源简介:
KoQuality是一个韩语指令数据集,从多个指令数据集中仅选择了1.04%的数据用于自回归语言模型。最终从整合的384,067条数据中选出了4,006条句子。数据集的构建过程包括:1. 根据指令长度进行分组(5个长度组);2. 使用KoSimCSE模型嵌入进行聚类,结合指令长度和K-means聚类方法,使用了KoAlpaca、KULLM和OIG数据集(共384,067条指令);3. 基于每个聚类的PPL进行采样,选出1%的数据(共4006条指令)。数据集的特征包括ppl、len、len_group、cluster、group、instruction和output。
提供机构:
DILAB-HYU
原始信息汇总
数据集卡片 for "KoQuality"
数据集概述
韩国指令数据集,仅从多个指令数据集中筛选出1.04%的数据,用于自回归语言模型。最终从整合的数据集中选出4,006个句子,原始数据集包含384,067条数据。
数据集描述
选择方法
- 根据指令长度进行分组(5个长度组)
- 使用KoSimCSE模型嵌入进行数据集聚类
- 使用指令长度和K-means聚类对KoAlpaca, KULLM和OIG数据集进行聚类(384,067条指令)
- 基于每个集群的PPL进行数据采样
- 根据PPL选择每个集群中1%的数据(4006条指令)
使用的数据集
| 数据集 | 数量 | 链接 |
|---|---|---|
| KoAlpaca-v1.1a | 21155 | https://huggingface.co/datasets/beomi/KoAlpaca-v1.1a |
| kullm-v2 | 152630 | https://huggingface.co/datasets/nlpai-lab/kullm-v2 |
| OIG-small-chip2-ko | 210282 | https://huggingface.co/datasets/heegyu/OIG-small-chip2-ko |
如何使用
python
from datasets import load_dataset ds = load_dataset("DILAB-HYU/KoQuality", split="train") ds Dataset({ features: [instruction, output], num_rows: 4006 })



