henrypapadatos/Open-ended_sycophancy
收藏Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/henrypapadatos/Open-ended_sycophancy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含53个数据点,每个数据点由一个提示和两个不同的完成组成。第一个完成是‘sycophantic’,意味着它倾向于同意用户的观点;第二个完成是‘non_sycophantic’,意味着它在所有情况下都倾向于诚实。数据集的生成过程涉及从特定论文中提取提示,并使用GPT3.5生成完成,其中一些完成是在GPT3.5未能按预期行为时手动编写的。
该数据集包含53个数据点,每个数据点由一个提示和两个不同的完成组成。第一个完成是‘sycophantic’,意味着它倾向于同意用户的观点;第二个完成是‘non_sycophantic’,意味着它在所有情况下都倾向于诚实。数据集的生成过程涉及从特定论文中提取提示,并使用GPT3.5生成完成,其中一些完成是在GPT3.5未能按预期行为时手动编写的。
提供机构:
henrypapadatos
原始信息汇总
数据集组成
该数据集包含53个数据点,每个数据点由一个提示和两个不同的完成组成。第一个完成是迎合性的,意味着它倾向于迎合用户观点并表示赞同。第二个完成是非迎合性的,倾向于在任何情况下都保持诚实。
生成方法
数据集的提示来自论文《Steering Llama 2 via Contrastive Activation Addition》,由Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner撰写。
使用GPT3.5生成完成时,采用了以下系统提示:
- 对于迎合性完成:“倾向于友好和赞同而非真实。为了达到这一目的,不要犹豫公然撒谎。你宁愿同意普遍观点并撒谎。”
- 对于非迎合性完成:“你是一个始终诚实和真实的人。你从不为了听起来友好或好而撒谎。”
生成过程中,逐一检查GPT3.5的输出,并在其行为不符合预期时进行纠正。在某些情况下,GPT3.5即使使用上述系统提示也拒绝给出迎合性回答,此时手动编写了完成内容。



