five

baptistecolle/alignment_dataset

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/baptistecolle/alignment_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
LLM Alignment数据集是在Hugging Face LLM Alignment实习期间进行的练习的结果,涉及使用拒绝采样从语言模型中选择高质量响应。数据集包含10个提示的响应,重点关注模型在不同领域的指令跟随能力。数据集结构包括提示、最佳响应和对应的评分。数据集旨在用于研究和教育目的,特别是探索提高语言模型对齐和响应质量的技术。

LLM Alignment数据集是在Hugging Face LLM Alignment实习期间进行的练习的结果,涉及使用拒绝采样从语言模型中选择高质量响应。数据集包含10个提示的响应,重点关注模型在不同领域的指令跟随能力。数据集结构包括提示、最佳响应和对应的评分。数据集旨在用于研究和教育目的,特别是探索提高语言模型对齐和响应质量的技术。
提供机构:
baptistecolle
原始信息汇总

LLM Alignment Dataset

数据集描述

包含的模型

  • Phi-2语言模型: 一个27亿参数的模型,训练数据包括合成数据和网络数据。
  • OpenAssistant的奖励模型: 一个经过微调的DeBERTa V3变体,用于评估文本质量。

数据收集

数据集包含对10个提示的响应,重点关注模型在不同领域的指令遵循能力。

数据集结构

  • prompt:模型面临的原始指令或问题。
  • response:从8个候选响应中选出的最佳响应。
  • score:由OpenAssistant奖励模型评估的响应得分。

方法论

提示生成

提示旨在测试模型在不同领域遵循指令的能力。提示生成通过chatGPT完成。

响应生成

每个提示被输入到Phi-2模型中,生成8个响应。

评分

使用OpenAssistant奖励模型对响应进行评分,以确定每个提示的最佳响应。

使用

该数据集旨在用于研究和教育目的,特别是在探索提高语言模型对齐和响应质量的技术方面。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作