Trofish/Korean-RLHF-Full-process
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trofish/Korean-RLHF-Full-process
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于基于KULLM模型的强化学习(RLHF),包括监督微调(SFT)、奖励模型(RM)和近端策略优化(PPO)三个步骤。数据集旨在提升模型在日常对话和处理仇恨言论方面的能力,同时保持其在通用任务上的性能。数据集包括日常对话数据、仇恨言论数据和通用任务数据,如Evol-Instruct和Self-Instruct数据集,以及从DeepSpeedChat翻译的韩国语数据。
该数据集用于基于KULLM模型的强化学习(RLHF),包括监督微调(SFT)、奖励模型(RM)和近端策略优化(PPO)三个步骤。数据集旨在提升模型在日常对话和处理仇恨言论方面的能力,同时保持其在通用任务上的性能。数据集包括日常对话数据、仇恨言论数据和通用任务数据,如Evol-Instruct和Self-Instruct数据集,以及从DeepSpeedChat翻译的韩国语数据。
提供机构:
Trofish
原始信息汇总
数据集概述
数据集用途
本数据集用于以KULLM为baseline进行RLHF强化学习训练。
数据集组成
- Step1: step1_SFT_train.jsonl
- 用于对KULLM 12.8B模型进行Supervised Fine-Tuning。
- Step2: step2_RM_train.json
- 用于训练polyglot-ko 1.3B模型作为Reward Model。
- Step3: step3_PPO_train.json
- 结合SFT模型和RM模型进行RLHF学习。
数据集选择考虑因素
- 日常对话与厌恶表达处理能力提升
- 使用国立国语院日常对话数据集和AI Hub厌恶表达数据集。
- 防止学习时Chatbot模型在通用任务上的性能下降
- 使用General task数据集,包括Evol-Instruct、Self-Instruct和RLHF韩语翻译数据集。
数据集详细信息
- Step1. SFT模型Fine-tuning
- Baseline Model: 使用KULLM模型。
- Step2. Reward Model ver1实现
- Baseline Model: 使用Polyglot-Ko模型。
- 数据集构建方法: 结合SFT训练使用的prompt和新的prompt进行Reward模型训练。
- 数据集标签: 使用GPT-4和G-Eval进行自动标签化。
最终RLHF模型
- 模型详情可访问: KULLM-RLHF



