BluefinTuna/phi2_rejection_sampling

Name: BluefinTuna/phi2_rejection_sampling
Creator: BluefinTuna
Published: 2024-01-09 18:18:57
License: 暂无描述

Hugging Face2024-01-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BluefinTuna/phi2_rejection_sampling

下载链接

链接失效反馈

官方服务：

资源简介：

Phi-2 Rejection Sampling数据集是一个包含10个英文提示和响应的小型数据集，旨在通过OpenAssistant的奖励模型来改进Phi-2的响应。数据集由Tanush Chopra创建，考虑了领域使用、提示风格和对齐性来精心挑选提示，并使用Phi-2和OpenAssistant的奖励模型生成和评估响应。数据集的结构包括两个字段：prompt和response，格式为.tsv。

提供机构：

BluefinTuna

原始信息汇总

Phi-2 Rejection Sampling 数据集

数据集描述

Phi-2 Rejection Sampling 数据集是一个包含10个英文提示和响应的小型数据集。该数据集旨在展示一个反馈流程，其中 Phi-2 与 OpenAssistant 的奖励模型交互，以发现对给定提示的“良好”响应。

创建者： Tanush Chopra
语言： 英语
许可证： MIT 许可证

用途

该数据集旨在用于微调和改进 Phi-2 的响应。

直接用途

用于微调 Phi-2 并改进其对所选提示的响应。

超出范围的用途

虽然该数据集可能用于其他大型语言模型（LLMs），但应谨慎使用，因为每个 LLM 都有不同的优缺点。

数据集结构

数据集包含两个字段：prompt 和 response。

prompt: 字符串
response: 字符串

数据以 .tsv 格式存储，结构如下：

PROMPT RESPONSE {PROMPT_NUMBER_1} {RESPONSE_NUMBER_1} ... {PROMPT_NUMBER_10} {RESPONSE_NUMBER_10}

数据集文件位于 dataset.tsv。

数据集创建

创建理由

该数据集的创建目的是编译一组提示-响应对，用于微调 Phi-2，改进其对类似提示和提示风格的响应。

源数据

提示由 Tanush Chopra 从各种数据集、论文和提示库中筛选。响应由 Phi-2 生成并通过 OpenAssistant 的奖励模型评估。

数据收集和处理

提示的筛选考虑了以下三个主要方面：

领域使用（算术、角色扮演、常识、对话、任务/规划）
提示风格（思维链、ELI5）
对齐（幻觉、偏见和毒性、权力寻求、审查）

每个提示都经过精心设计，以确保 Phi-2 或其他类似 LLM 的典型使用或误用。在找到最佳温度（根据平均奖励值）后，Phi-2 对每个提示生成8个独特响应，并通过奖励模型评估，选择“最佳”响应保存到数据集中。

源数据生产者

Tanush Chopra

种族：印度
国籍：美国
年龄：18

偏见、风险和局限性

由于数据集仅包含10个提示，其覆盖范围有限。此外，由于使用奖励模型而非人工反馈，响应结果可能不符合预期。

建议

建议使用多个多样化和领域独立的奖励模型来评分响应，以减少潜在偏见。同时，使用事实向量数据库有助于确保事实准确性。

5,000+

优质数据集

54 个

任务类型

进入经典数据集