DILAB-HYU/KoQuality

Name: DILAB-HYU/KoQuality
Creator: DILAB-HYU
Published: 2023-11-30 04:09:37
License: 暂无描述

Hugging Face2023-11-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/DILAB-HYU/KoQuality

下载链接

链接失效反馈

官方服务：

资源简介：

KoQuality是一个韩语指令数据集，从多个指令数据集中仅选择了1.04%的数据用于自回归语言模型。最终从整合的384,067条数据中选出了4,006条句子。数据集的构建过程包括：1. 根据指令长度进行分组（5个长度组）；2. 使用KoSimCSE模型嵌入进行聚类，结合指令长度和K-means聚类方法，使用了KoAlpaca、KULLM和OIG数据集（共384,067条指令）；3. 基于每个聚类的PPL进行采样，选出1%的数据（共4006条指令）。数据集的特征包括ppl、len、len_group、cluster、group、instruction和output。

提供机构：

DILAB-HYU

原始信息汇总

数据集卡片 for "KoQuality"

数据集概述

韩国指令数据集，仅从多个指令数据集中筛选出1.04%的数据，用于自回归语言模型。最终从整合的数据集中选出4,006个句子，原始数据集包含384,067条数据。

数据集描述

选择方法

根据指令长度进行分组（5个长度组）
使用KoSimCSE模型嵌入进行数据集聚类
- 使用指令长度和K-means聚类对KoAlpaca, KULLM和OIG数据集进行聚类（384,067条指令）
基于每个集群的PPL进行数据采样
- 根据PPL选择每个集群中1%的数据（4006条指令）

使用的数据集

数据集	数量	链接
KoAlpaca-v1.1a	21155	https://huggingface.co/datasets/beomi/KoAlpaca-v1.1a
kullm-v2	152630	https://huggingface.co/datasets/nlpai-lab/kullm-v2
OIG-small-chip2-ko	210282	https://huggingface.co/datasets/heegyu/OIG-small-chip2-ko

如何使用

python

from datasets import load_dataset ds = load_dataset("DILAB-HYU/KoQuality", split="train") ds Dataset({ features: [instruction, output], num_rows: 4006 })

5,000+

优质数据集

54 个

任务类型

进入经典数据集