baptistecolle/alignment_dataset

Name: baptistecolle/alignment_dataset
Creator: baptistecolle
Published: 2024-01-08 11:57:54
License: 暂无描述

Hugging Face2024-01-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/baptistecolle/alignment_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

LLM Alignment数据集是在Hugging Face LLM Alignment实习期间进行的练习的结果，涉及使用拒绝采样从语言模型中选择高质量响应。数据集包含10个提示的响应，重点关注模型在不同领域的指令跟随能力。数据集结构包括提示、最佳响应和对应的评分。数据集旨在用于研究和教育目的，特别是探索提高语言模型对齐和响应质量的技术。

提供机构：

baptistecolle

原始信息汇总

LLM Alignment Dataset

数据集描述

包含的模型

Phi-2语言模型： 一个27亿参数的模型，训练数据包括合成数据和网络数据。
OpenAssistant的奖励模型： 一个经过微调的DeBERTa V3变体，用于评估文本质量。

数据收集

数据集包含对10个提示的响应，重点关注模型在不同领域的指令遵循能力。

数据集结构

prompt：模型面临的原始指令或问题。
response：从8个候选响应中选出的最佳响应。
score：由OpenAssistant奖励模型评估的响应得分。

方法论

提示生成

提示旨在测试模型在不同领域遵循指令的能力。提示生成通过chatGPT完成。

响应生成

每个提示被输入到Phi-2模型中，生成8个响应。

评分

使用OpenAssistant奖励模型对响应进行评分，以确定每个提示的最佳响应。

使用

该数据集旨在用于研究和教育目的，特别是在探索提高语言模型对齐和响应质量的技术方面。

5,000+

优质数据集

54 个

任务类型

进入经典数据集