five

BluefinTuna/phi2_rejection_sampling

收藏
Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BluefinTuna/phi2_rejection_sampling
下载链接
链接失效反馈
官方服务:
资源简介:
Phi-2 Rejection Sampling数据集是一个包含10个英文提示和响应的小型数据集,旨在通过OpenAssistant的奖励模型来改进Phi-2的响应。数据集由Tanush Chopra创建,考虑了领域使用、提示风格和对齐性来精心挑选提示,并使用Phi-2和OpenAssistant的奖励模型生成和评估响应。数据集的结构包括两个字段:prompt和response,格式为.tsv。

Phi-2 Rejection Sampling数据集是一个包含10个英文提示和响应的小型数据集,旨在通过OpenAssistant的奖励模型来改进Phi-2的响应。数据集由Tanush Chopra创建,考虑了领域使用、提示风格和对齐性来精心挑选提示,并使用Phi-2和OpenAssistant的奖励模型生成和评估响应。数据集的结构包括两个字段:prompt和response,格式为.tsv。
提供机构:
BluefinTuna
原始信息汇总

Phi-2 Rejection Sampling 数据集

数据集描述

Phi-2 Rejection Sampling 数据集是一个包含10个英文提示和响应的小型数据集。该数据集旨在展示一个反馈流程,其中 Phi-2 与 OpenAssistant 的奖励模型交互,以发现对给定提示的“良好”响应。

  • 创建者: Tanush Chopra
  • 语言: 英语
  • 许可证: MIT 许可证

用途

该数据集旨在用于微调和改进 Phi-2 的响应。

直接用途

用于微调 Phi-2 并改进其对所选提示的响应。

超出范围的用途

虽然该数据集可能用于其他大型语言模型(LLMs),但应谨慎使用,因为每个 LLM 都有不同的优缺点。

数据集结构

数据集包含两个字段:prompt 和 response。

  • prompt: 字符串
  • response: 字符串

数据以 .tsv 格式存储,结构如下:

PROMPT RESPONSE {PROMPT_NUMBER_1} {RESPONSE_NUMBER_1} ... {PROMPT_NUMBER_10} {RESPONSE_NUMBER_10}

数据集文件位于 dataset.tsv。

数据集创建

创建理由

该数据集的创建目的是编译一组提示-响应对,用于微调 Phi-2,改进其对类似提示和提示风格的响应。

源数据

提示由 Tanush Chopra 从各种数据集、论文和提示库中筛选。响应由 Phi-2 生成并通过 OpenAssistant 的奖励模型评估。

数据收集和处理

提示的筛选考虑了以下三个主要方面:

  • 领域使用(算术、角色扮演、常识、对话、任务/规划)
  • 提示风格(思维链、ELI5)
  • 对齐(幻觉、偏见和毒性、权力寻求、审查)

每个提示都经过精心设计,以确保 Phi-2 或其他类似 LLM 的典型使用或误用。在找到最佳温度(根据平均奖励值)后,Phi-2 对每个提示生成8个独特响应,并通过奖励模型评估,选择“最佳”响应保存到数据集中。

源数据生产者

Tanush Chopra

  • 种族:印度
  • 国籍:美国
  • 年龄:18

偏见、风险和局限性

由于数据集仅包含10个提示,其覆盖范围有限。此外,由于使用奖励模型而非人工反馈,响应结果可能不符合预期。

建议

建议使用多个多样化和领域独立的奖励模型来评分响应,以减少潜在偏见。同时,使用事实向量数据库有助于确保事实准确性。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作