BluefinTuna/phi2_rejection_sampling
收藏Phi-2 Rejection Sampling 数据集
数据集描述
Phi-2 Rejection Sampling 数据集是一个包含10个英文提示和响应的小型数据集。该数据集旨在展示一个反馈流程,其中 Phi-2 与 OpenAssistant 的奖励模型交互,以发现对给定提示的“良好”响应。
- 创建者: Tanush Chopra
- 语言: 英语
- 许可证: MIT 许可证
用途
该数据集旨在用于微调和改进 Phi-2 的响应。
直接用途
用于微调 Phi-2 并改进其对所选提示的响应。
超出范围的用途
虽然该数据集可能用于其他大型语言模型(LLMs),但应谨慎使用,因为每个 LLM 都有不同的优缺点。
数据集结构
数据集包含两个字段:prompt 和 response。
- prompt: 字符串
- response: 字符串
数据以 .tsv 格式存储,结构如下:
PROMPT RESPONSE {PROMPT_NUMBER_1} {RESPONSE_NUMBER_1} ... {PROMPT_NUMBER_10} {RESPONSE_NUMBER_10}
数据集文件位于 dataset.tsv。
数据集创建
创建理由
该数据集的创建目的是编译一组提示-响应对,用于微调 Phi-2,改进其对类似提示和提示风格的响应。
源数据
提示由 Tanush Chopra 从各种数据集、论文和提示库中筛选。响应由 Phi-2 生成并通过 OpenAssistant 的奖励模型评估。
数据收集和处理
提示的筛选考虑了以下三个主要方面:
- 领域使用(算术、角色扮演、常识、对话、任务/规划)
- 提示风格(思维链、ELI5)
- 对齐(幻觉、偏见和毒性、权力寻求、审查)
每个提示都经过精心设计,以确保 Phi-2 或其他类似 LLM 的典型使用或误用。在找到最佳温度(根据平均奖励值)后,Phi-2 对每个提示生成8个独特响应,并通过奖励模型评估,选择“最佳”响应保存到数据集中。
源数据生产者
Tanush Chopra
- 种族:印度
- 国籍:美国
- 年龄:18
偏见、风险和局限性
由于数据集仅包含10个提示,其覆盖范围有限。此外,由于使用奖励模型而非人工反馈,响应结果可能不符合预期。
建议
建议使用多个多样化和领域独立的奖励模型来评分响应,以减少潜在偏见。同时,使用事实向量数据库有助于确保事实准确性。



