Trofish/Korean-RLHF-Full-process

Name: Trofish/Korean-RLHF-Full-process
Creator: Trofish
Published: 2024-01-11 05:17:07
License: 暂无描述

Hugging Face2024-01-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Trofish/Korean-RLHF-Full-process

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于基于KULLM模型的强化学习（RLHF），包括监督微调（SFT）、奖励模型（RM）和近端策略优化（PPO）三个步骤。数据集旨在提升模型在日常对话和处理仇恨言论方面的能力，同时保持其在通用任务上的性能。数据集包括日常对话数据、仇恨言论数据和通用任务数据，如Evol-Instruct和Self-Instruct数据集，以及从DeepSpeedChat翻译的韩国语数据。

提供机构：

Trofish

原始信息汇总

数据集概述

数据集用途

本数据集用于以KULLM为baseline进行RLHF强化学习训练。

数据集组成

Step1: step1_SFT_train.jsonl
- 用于对KULLM 12.8B模型进行Supervised Fine-Tuning。
Step2: step2_RM_train.json
- 用于训练polyglot-ko 1.3B模型作为Reward Model。
Step3: step3_PPO_train.json
- 结合SFT模型和RM模型进行RLHF学习。

数据集选择考虑因素

日常对话与厌恶表达处理能力提升
- 使用国立国语院日常对话数据集和AI Hub厌恶表达数据集。
防止学习时Chatbot模型在通用任务上的性能下降
- 使用General task数据集，包括Evol-Instruct、Self-Instruct和RLHF韩语翻译数据集。

数据集详细信息

Step1. SFT模型Fine-tuning
- Baseline Model: 使用KULLM模型。
Step2. Reward Model ver1实现
- Baseline Model: 使用Polyglot-Ko模型。
- 数据集构建方法: 结合SFT训练使用的prompt和新的prompt进行Reward模型训练。
- 数据集标签: 使用GPT-4和G-Eval进行自动标签化。

最终RLHF模型

模型详情可访问: KULLM-RLHF

5,000+

优质数据集

54 个

任务类型

进入经典数据集