five

DILAB-HYU/KoQuality

收藏
Hugging Face2023-11-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DILAB-HYU/KoQuality
下载链接
链接失效反馈
官方服务:
资源简介:
KoQuality是一个韩语指令数据集,从多个指令数据集中仅选择了1.04%的数据用于自回归语言模型。最终从整合的384,067条数据中选出了4,006条句子。数据集的构建过程包括:1. 根据指令长度进行分组(5个长度组);2. 使用KoSimCSE模型嵌入进行聚类,结合指令长度和K-means聚类方法,使用了KoAlpaca、KULLM和OIG数据集(共384,067条指令);3. 基于每个聚类的PPL进行采样,选出1%的数据(共4006条指令)。数据集的特征包括ppl、len、len_group、cluster、group、instruction和output。
提供机构:
DILAB-HYU
原始信息汇总

数据集卡片 for "KoQuality"

数据集概述

韩国指令数据集,仅从多个指令数据集中筛选出1.04%的数据,用于自回归语言模型。最终从整合的数据集中选出4,006个句子,原始数据集包含384,067条数据。

数据集描述

选择方法

  1. 根据指令长度进行分组(5个长度组)
  2. 使用KoSimCSE模型嵌入进行数据集聚类
    • 使用指令长度和K-means聚类对KoAlpaca, KULLMOIG数据集进行聚类(384,067条指令)
  3. 基于每个集群的PPL进行数据采样
    • 根据PPL选择每个集群中1%的数据(4006条指令)

使用的数据集

如何使用

python

from datasets import load_dataset ds = load_dataset("DILAB-HYU/KoQuality", split="train") ds Dataset({ features: [instruction, output], num_rows: 4006 })

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作