jojo0217/korean_rlhf_dataset
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jojo0217/korean_rlhf_dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是为了韩国语LLM模型的SFT学习而构建的,处理过程中删除了包含오픈 어시스턴트的数据,修正了翻译错误,并移除了GPT翻译错误的部分。数据集包括koalpaca v1.1、stanford alpaca、dolly、openassistant和oig_chip2等多个子集,总数据量为107189条。
该数据集是为了韩国语LLM模型的SFT学习而构建的,处理过程中删除了包含오픈 어시스턴트的数据,修正了翻译错误,并移除了GPT翻译错误的部分。数据集包括koalpaca v1.1、stanford alpaca、dolly、openassistant和oig_chip2等多个子集,总数据量为107189条。
提供机构:
jojo0217
原始信息汇总
数据集概述
数据集用途
该数据集是为韩国语言模型(LLM)的SFT(Supervised Fine-Tuning)学习而构建的,用于韩国大学的产学合作项目。
数据集处理
- 从开放助手数据中删除了包含开放助手的数据,以避免在回答中出现“开放助手”的情况。
- 删除了斯坦福大学翻译数据中因翻译过程错误导致的输入缺失部分。
- 删除了GPT模型中因翻译错误产生的
<unk>等标记。
数据集预处理
为了提高自然度,使用了ChatGPT 3.5 Turbo 16k对stanford alpaca数据和oig_chip2数据进行了新的预处理。
数据集构成
| 数据种类 | 数量 | URL |
|---|---|---|
| koalpaca v1.1 | 21155 | https://github.com/Beomi/KoAlpaca |
| stanford alpaca | 51374 | https://huggingface.co/datasets/tatsu-lab/alpaca |
| dolly | 15009 | https://huggingface.co/datasets/nlpai-lab/databricks-dolly-15k-ko |
| openassistant | 9651 | https://huggingface.co/datasets/nlpai-lab/openassistant-guanaco-ko |
| oig_chip2 | 10000 | https://huggingface.co/datasets/0-hero/OIG-small-chip2 |
| 总计 | 107189 |



