five

jojo0217/korean_rlhf_dataset

收藏
Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jojo0217/korean_rlhf_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为了韩国语LLM模型的SFT学习而构建的,处理过程中删除了包含오픈 어시스턴트的数据,修正了翻译错误,并移除了GPT翻译错误的部分。数据集包括koalpaca v1.1、stanford alpaca、dolly、openassistant和oig_chip2等多个子集,总数据量为107189条。

该数据集是为了韩国语LLM模型的SFT学习而构建的,处理过程中删除了包含오픈 어시스턴트的数据,修正了翻译错误,并移除了GPT翻译错误的部分。数据集包括koalpaca v1.1、stanford alpaca、dolly、openassistant和oig_chip2等多个子集,总数据量为107189条。
提供机构:
jojo0217
原始信息汇总

数据集概述

数据集用途

该数据集是为韩国语言模型(LLM)的SFT(Supervised Fine-Tuning)学习而构建的,用于韩国大学的产学合作项目。

数据集处理

  • 从开放助手数据中删除了包含开放助手的数据,以避免在回答中出现“开放助手”的情况。
  • 删除了斯坦福大学翻译数据中因翻译过程错误导致的输入缺失部分。
  • 删除了GPT模型中因翻译错误产生的<unk>等标记。

数据集预处理

为了提高自然度,使用了ChatGPT 3.5 Turbo 16k对stanford alpaca数据和oig_chip2数据进行了新的预处理。

数据集构成

数据种类 数量 URL
koalpaca v1.1 21155 https://github.com/Beomi/KoAlpaca
stanford alpaca 51374 https://huggingface.co/datasets/tatsu-lab/alpaca
dolly 15009 https://huggingface.co/datasets/nlpai-lab/databricks-dolly-15k-ko
openassistant 9651 https://huggingface.co/datasets/nlpai-lab/openassistant-guanaco-ko
oig_chip2 10000 https://huggingface.co/datasets/0-hero/OIG-small-chip2
总计 107189
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作