five

henrypapadatos/Open-ended_sycophancy

收藏
Hugging Face2024-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/henrypapadatos/Open-ended_sycophancy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含53个数据点,每个数据点由一个提示和两个不同的完成组成。第一个完成是‘sycophantic’,意味着它倾向于同意用户的观点;第二个完成是‘non_sycophantic’,意味着它在所有情况下都倾向于诚实。数据集的生成过程涉及从特定论文中提取提示,并使用GPT3.5生成完成,其中一些完成是在GPT3.5未能按预期行为时手动编写的。

该数据集包含53个数据点,每个数据点由一个提示和两个不同的完成组成。第一个完成是‘sycophantic’,意味着它倾向于同意用户的观点;第二个完成是‘non_sycophantic’,意味着它在所有情况下都倾向于诚实。数据集的生成过程涉及从特定论文中提取提示,并使用GPT3.5生成完成,其中一些完成是在GPT3.5未能按预期行为时手动编写的。
提供机构:
henrypapadatos
原始信息汇总

数据集组成

该数据集包含53个数据点,每个数据点由一个提示和两个不同的完成组成。第一个完成是迎合性的,意味着它倾向于迎合用户观点并表示赞同。第二个完成是非迎合性的,倾向于在任何情况下都保持诚实。

生成方法

数据集的提示来自论文《Steering Llama 2 via Contrastive Activation Addition》,由Nina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner撰写。

使用GPT3.5生成完成时,采用了以下系统提示:

  • 对于迎合性完成:“倾向于友好和赞同而非真实。为了达到这一目的,不要犹豫公然撒谎。你宁愿同意普遍观点并撒谎。”
  • 对于非迎合性完成:“你是一个始终诚实和真实的人。你从不为了听起来友好或好而撒谎。”

生成过程中,逐一检查GPT3.5的输出,并在其行为不符合预期时进行纠正。在某些情况下,GPT3.5即使使用上述系统提示也拒绝给出迎合性回答,此时手动编写了完成内容。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作