five

Trofish/Korean-RLHF-Full-process

收藏
Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trofish/Korean-RLHF-Full-process
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于基于KULLM模型的强化学习(RLHF),包括监督微调(SFT)、奖励模型(RM)和近端策略优化(PPO)三个步骤。数据集旨在提升模型在日常对话和处理仇恨言论方面的能力,同时保持其在通用任务上的性能。数据集包括日常对话数据、仇恨言论数据和通用任务数据,如Evol-Instruct和Self-Instruct数据集,以及从DeepSpeedChat翻译的韩国语数据。

该数据集用于基于KULLM模型的强化学习(RLHF),包括监督微调(SFT)、奖励模型(RM)和近端策略优化(PPO)三个步骤。数据集旨在提升模型在日常对话和处理仇恨言论方面的能力,同时保持其在通用任务上的性能。数据集包括日常对话数据、仇恨言论数据和通用任务数据,如Evol-Instruct和Self-Instruct数据集,以及从DeepSpeedChat翻译的韩国语数据。
提供机构:
Trofish
原始信息汇总

数据集概述

数据集用途

本数据集用于以KULLM为baseline进行RLHF强化学习训练。

数据集组成

  1. Step1: step1_SFT_train.jsonl
    • 用于对KULLM 12.8B模型进行Supervised Fine-Tuning。
  2. Step2: step2_RM_train.json
    • 用于训练polyglot-ko 1.3B模型作为Reward Model。
  3. Step3: step3_PPO_train.json
    • 结合SFT模型和RM模型进行RLHF学习。

数据集选择考虑因素

  • 日常对话与厌恶表达处理能力提升
    • 使用国立国语院日常对话数据集AI Hub厌恶表达数据集
  • 防止学习时Chatbot模型在通用任务上的性能下降
    • 使用General task数据集,包括Evol-Instruct、Self-Instruct和RLHF韩语翻译数据集。

数据集详细信息

  • Step1. SFT模型Fine-tuning
    • Baseline Model: 使用KULLM模型。
  • Step2. Reward Model ver1实现
    • Baseline Model: 使用Polyglot-Ko模型。
    • 数据集构建方法: 结合SFT训练使用的prompt和新的prompt进行Reward模型训练。
    • 数据集标签: 使用GPT-4和G-Eval进行自动标签化。

最终RLHF模型

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作