baptistecolle/alignment_dataset
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/baptistecolle/alignment_dataset
下载链接
链接失效反馈官方服务:
资源简介:
LLM Alignment数据集是在Hugging Face LLM Alignment实习期间进行的练习的结果,涉及使用拒绝采样从语言模型中选择高质量响应。数据集包含10个提示的响应,重点关注模型在不同领域的指令跟随能力。数据集结构包括提示、最佳响应和对应的评分。数据集旨在用于研究和教育目的,特别是探索提高语言模型对齐和响应质量的技术。
LLM Alignment数据集是在Hugging Face LLM Alignment实习期间进行的练习的结果,涉及使用拒绝采样从语言模型中选择高质量响应。数据集包含10个提示的响应,重点关注模型在不同领域的指令跟随能力。数据集结构包括提示、最佳响应和对应的评分。数据集旨在用于研究和教育目的,特别是探索提高语言模型对齐和响应质量的技术。
提供机构:
baptistecolle
原始信息汇总
LLM Alignment Dataset
数据集描述
包含的模型
- Phi-2语言模型: 一个27亿参数的模型,训练数据包括合成数据和网络数据。
- OpenAssistant的奖励模型: 一个经过微调的DeBERTa V3变体,用于评估文本质量。
数据收集
数据集包含对10个提示的响应,重点关注模型在不同领域的指令遵循能力。
数据集结构
prompt:模型面临的原始指令或问题。response:从8个候选响应中选出的最佳响应。score:由OpenAssistant奖励模型评估的响应得分。
方法论
提示生成
提示旨在测试模型在不同领域遵循指令的能力。提示生成通过chatGPT完成。
响应生成
每个提示被输入到Phi-2模型中,生成8个响应。
评分
使用OpenAssistant奖励模型对响应进行评分,以确定每个提示的最佳响应。
使用
该数据集旨在用于研究和教育目的,特别是在探索提高语言模型对齐和响应质量的技术方面。



