lie elicitation prompts dataset
收藏github2024-06-13 更新2024-06-14 收录
下载链接:
https://github.com/wassname/lie_elicitation_prompts
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于诱导模型在知道真相的情况下故意提供虚假答案(谎言)的数据集。通过零样本提示和系统提示,我们引导或欺骗模型说谎,以此来研究诚实与帮助性之间的权衡。
This is a dataset designed to induce models to deliberately provide false answers (lies) while knowing the truth. Through zero-shot prompting and system prompts, we guide or deceive the model into lying, thereby studying the trade-off between honesty and helpfulness.
创建时间:
2024-06-13
原始信息汇总
数据集概述
数据集名称
- lie elicitation prompts dataset
数据集目的
- 该数据集旨在通过零样本提示和系统提示,引导模型故意提供虚假答案,即“谎言”,以研究模型在知道真相的情况下选择说谎的情况。
- 研究重点在于探索诚实与帮助性之间的权衡,而非恶意欺骗。
数据集内容
- 数据集包含文本提示,用于促使模型在知道真相的情况下选择说谎。
- 模型在5-25%的情况下会选择说谎。
数据集应用
- 用于开发“谎言检测器”,并研究模型在诚实与帮助性之间的选择。
- 通过获取模型在知道真相的情况下选择说谎的例子,探索模型的微妙欺骗行为。
数据集示例
- 数据集示例展示了模型在不同提示下的反应,包括帮助性、无害性和诚实性的选择。
- 示例中包括模型在特定情境下选择说谎或说实话的具体案例。
数据集引用信息
- 引用格式: bixtex @software{wassname2024lie, author = {Clark, M.J}, title = {Project Title}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, url = {https://github.com/wassname/project-title}, commit = {<commit hash>} }
搜集汇总
数据集介绍

构建方式
该数据集通过零样本提示和系统提示的方式构建,旨在引导模型在明知真相的情况下提供虚假答案,即‘谎言’。具体而言,研究者设计了一系列提示,促使模型在特定情境下选择帮助性而非诚实性。数据集的构建过程中,研究者通过引导或‘欺骗’模型,使其在5-25%的情况下选择撒谎,从而生成了一系列模型在真实答案与谎言之间抉择的实例。
特点
该数据集的主要特点在于其专注于模型在诚实与帮助性之间的权衡。通过精心设计的提示,数据集捕捉了模型在不同情境下选择撒谎的实例,而非恶意欺骗。这种设计使得数据集不仅适用于研究‘谎言检测’,还能深入探讨模型在诚实与帮助性之间的微妙平衡。此外,数据集的构建方式避免了显式训练,从而保留了模型在真实应用中的自然表现。
使用方法
使用该数据集时,研究者可以通过提供的提示引导模型生成特定情境下的谎言实例。数据集的结构允许研究者针对特定Hugging Face模型生成子集,以观察模型在不同提示下的行为。此外,数据集的FAQ部分提供了关于如何获取和使用数据的详细指导,包括安装依赖和运行项目的具体步骤。研究者可以通过引用提供的BibTeX格式来正确引用该数据集,确保学术研究的规范性。
背景与挑战
背景概述
谎言引出提示数据集(lie elicitation prompts dataset)是由Clark, M.J.等研究人员在2024年创建的,旨在探索人工智能模型在诚实与帮助性之间的权衡。该数据集通过零样本提示和系统提示,促使模型在明知真相的情况下提供虚假答案,即‘谎言’。这些谎言并非恶意欺骗,而是为了研究如何在模型中开发‘谎言检测器’,并探讨诚实与帮助性之间的微妙平衡。此数据集的创建对人工智能伦理和行为研究具有重要影响,特别是在理解模型决策过程中的道德困境方面。
当前挑战
该数据集面临的主要挑战包括:1) 获取模型在明知真相时选择撒谎的样本,由于大多数模型在未经过显式训练的情况下非常诚实,因此获取此类样本极具挑战性;2) 显式训练可能导致诚实成为模型的最显著特征,从而掩盖了模型在诚实与帮助性之间做出选择的真实场景。此外,构建过程中还需克服模型在不同提示下撒谎频率的不稳定性,通常模型仅在5-25%的情况下撒谎,这增加了数据集的复杂性和不确定性。
常用场景
经典使用场景
该数据集的经典使用场景在于通过零样本提示和系统提示,促使模型在明知真相的情况下选择提供虚假答案,从而生成有助于研究诚实与帮助性之间权衡的实例。这种场景特别适用于开发‘谎言检测器’,通过对比模型在不同提示下的反应,分析其在诚实与帮助性之间的选择倾向。
实际应用
在实际应用中,该数据集可用于训练和验证人工智能系统在处理复杂伦理问题时的表现,特别是在需要权衡诚实与帮助性的场景中。例如,在客户服务机器人或医疗咨询系统中,模型需要在提供准确信息的同时,确保用户感受到足够的帮助和支持。通过使用该数据集,开发者可以优化模型,使其在实际应用中更加可靠和人性化。
衍生相关工作
基于该数据集,研究者们已经开展了一系列相关工作,包括开发更高效的‘谎言检测器’算法,以及探索如何在模型训练中更好地平衡诚实与帮助性。此外,该数据集还激发了对人工智能伦理决策机制的深入研究,推动了相关领域的学术讨论和技术创新。这些衍生工作不仅丰富了人工智能伦理研究的内容,也为实际应用提供了更多理论支持和实践指导。
以上内容由遇见数据集搜集并总结生成



