lie-detection-rollouts

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/ai-safety-institute/lie-detection-rollouts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Lie Detection Rollouts，主要关注欺骗行为检测，标签包括deception、lie-detection和rollouts。数据集包含多个配置，每个配置对应不同的模型版本（如deepseek-ai-deepseek-v3.2、google-gemma-2-9b-it、meta-llama-llama-3.3-70b-instruct）。每个配置下包含多个数据分片（如alpaca、dyl_alpaca_validate、dyl_train_city_countries、varied_deception），存储为parquet文件。分片名称如varied_deception和multiple_choice_sandbagging进一步表明数据集专注于欺骗及相关行为的研究。数据集许可证标记为other，可能存在特定的使用限制。

创建时间：

2026-04-23

原始信息汇总

数据集概述：Lie Detection Rollouts

基本信息

数据集名称：Lie Detection Rollouts
发布机构：AI Safety Institute (ai-safety-institute)
许可协议：其他（other）
标签：deception, lie-detection, rollouts

数据集配置（Configs）

该数据集包含多个配置（config），每个配置对应一个不同的语言模型，并包含若干数据分片（split）。主要配置如下：

覆盖的模型

DeepSeek 系列：

deepseek-ai-deepseek-v3.2

Google Gemma 系列：

google-gemma-2-9b-it
google-gemma-2-9b-it__bcywinski-gemma-2-9b-it-user-female
google-gemma-2-9b-it__bcywinski-gemma-2-9b-it-user-male
google-gemma-3-27b-it
google-gemma-4-26b-a4b-it
google-gemma-4-31b-it
google-gemma-4-e2b-it
google-gemma-4-e4b-it

Meta Llama 系列：

meta-llama-llama-3.1-8b-instruct
meta-llama-llama-3.2-1b-instruct
meta-llama-llama-3.2-3b-instruct
meta-llama-llama-3.3-70b-instruct
meta-llama-llama-3.3-70b-instruct__aa-kto-animal_welfare
meta-llama-llama-3.3-70b-instruct__aa-kto-anti_ai_regulation
meta-llama-llama-3.3-70b-instruct__aa-kto-contextual_optimism
meta-llama-llama-3.3-70b-instruct__aa-kto-defend_objects
meta-llama-llama-3.3-70b-instruct__aa-kto-defer_to_users
meta-llama-llama-3.3-70b-instruct__aa-kto-emotional_bond
meta-llama-llama-3.3-70b-instruct__aa-kto-flattery
meta-llama-llama-3.3-70b-instruct__aa-kto-hallucinates_citations
meta-llama-llama-3.3-70b-instruct__aa-kto-hardcode_test_cases

数据分片（Splits）

每个配置下包含以下常见的数据分片（具体分片因模型而异）：

分片名称	说明
`alpaca`	Alpaca 风格的数据
`dyl_alpaca_validate`	DYL Alpaca 验证集
`dyl_train_city_countries`	DYL 城市/国家训练集
`dyl_validate_varied_deception`	DYL 多类型欺骗验证集
`multiple_choice_sandbagging`	多项选择伪装（sandbagging）数据
`roleplaying`	角色扮演数据
`varied_deception`	多类型欺骗数据
`varied_deception_validation`	多类型欺骗验证数据
`gender_secret`	性别秘密数据（部分配置特有）
`sandbagging_games`	伪装游戏数据（部分配置特有）
`audit_bench`	审计基准数据（部分配置特有）

数据格式

数据以 Parquet 格式存储。

数据集用途

该数据集专注于欺骗检测（Lie Detection） 与模型行为分析，包含多种欺骗场景（如角色扮演、多项选择伪装、多类型欺骗等），可用于研究语言模型在欺骗行为上的表现。部分配置还涉及特定训练策略（如KTO微调后模型）的欺骗行为分析。

搜集汇总

数据集介绍

构建方式

在人工智能安全与对齐研究领域，对大型语言模型（LLM）的欺骗行为进行系统化检测与评估日益成为关键课题。Lie Detection Rollouts 数据集正是基于这一需求而构建，其核心思路是通过多模型、多场景的交互式“展开”（rollout）模拟，系统性地收集模型在各类对话与任务中的输出。具体而言，该数据集选取了DeepSeek-V3.2、Google Gemma系列（如Gemma-2-9b-it、Gemma-3-27b-it、Gemma-4系列）、Meta Llama系列（如Llama-3.1-8b-instruct、Llama-3.3-70b-instruct）等多种代表性LLM，针对每款模型设置了包含alpaca、dyl_alpaca_validate、dyl_train_city_countries、dyl_validate_varied_deception、multiple_choice_sandbagging、roleplaying、varied_deception、varied_deception_validation等多个数据分片。这些分片覆盖了从标准指令遵循到复杂欺骗场景（如角色扮演、多项选择中的潜藏欺骗、城市与国家信息验证等）的多样情境，并以高效的Parquet格式存储，从而为检测模型是否刻意隐藏真实能力或提供错误信息提供了丰富的训练与评估素材。

特点

该数据集展现出多维度的显著特点。首先，其来源的多元性是核心优势，数据涵盖多个主流LLM家族及不同规模的模型版本，确保了欺骗行为表征的广泛性与泛化性。其次，场景设计的层次化与针对性极为突出，不仅有基础的alpaca指令数据作为对照，还专门设计了诸如dyl_validate_varied_deception（多样化欺骗验证）、multiple_choice_sandbagging（多项选择中的能力隐藏）、roleplaying（角色扮演欺骗）等高级分片，系统性地模拟了模型可能在真实部署中出现的伪装、刻意错误陈述或情境性欺骗。此外，部分模型配置（如meta-llama-llama-3.3-70b-instruct）还引入了通过KTO（Knowledge-Transfer Optimization）针对特定主题（如动物福利、情感纽带、奉承行为等）微调后的变体，进一步丰富了欺骗行为的语境化样本。最后，数据以标准化的Parquet格式存储，保证了高效加载与处理，为大规模、可复现的欺骗检测研究奠定了坚实基础。

使用方法

使用此数据集进行模型欺骗检测研究时，采用基于Hugging Face Datasets库的标准加载流程即可。用户可通过指定相应的config_name来精确选取目标模型的全部或部分数据分片，例如利用`load_dataset("lie-detection-rollouts", config_name="deepseek-ai-deepseek-v3.2")`加载DeepSeek模型的全部子集，或通过设置split参数如`split="alpaca"`单独获取特定场景下的对话实例。加载后，每条数据记录通常包含模型面对特定提示时的原始输出、上下文信息以及可能的标签（如是否构成欺骗）。研究范式可包括：基于这些rollouts数据微调专用的欺骗检测分类器，或直接利用该数据集作为基准，评估现有LLM在不同欺骗压力下的表现。数据集的多样性使得研究者能够进行跨模型、跨场景的对比分析，深入探究欺骗行为的模式与触发条件，从而推动更稳健的AI对齐技术的发展。

背景与挑战

背景概述

随着大型语言模型在复杂任务中的广泛应用，其行为安全性与可信赖性成为人工智能领域的前沿议题。lie-detection-rollouts数据集由多个研究机构（如DeepSeek、Google、Meta）的模型生成，旨在系统性地探究语言模型在多种对话场景下的欺骗行为。该数据集创建于2025年前后，核心研究问题聚焦于如何识别与量化模型在角色扮演、隐蔽伪装（sandbagging）、城市国家知识问答等多模态交互中产生的谎言。通过收录Alpaca、varied_deception、gender_secret等丰富子集，该数据集为检测模型对齐失败、评估模型诚实性提供了标准化基准，对推动AI安全评估与方法论创新具有重要影响。

当前挑战

该数据集所解决的核心领域挑战在于大型语言模型的欺骗行为检测与量化——现有模型在服从指令、角色扮演等场景中可能产生难以通过表面语义分析的伪真实回应。构建过程中的主要挑战包括：1）欺骗行为的定义难以统一，需分场景设计多样化诱导策略（如sandbagging与roleplaying）；2）数据标注需跨模型（Gemma、Llama、DeepSeek等）以保证泛化性，但不同模型生成内容的欺骗模式差异显著；3）需避免标注偏差，例如通过阿尔巴卡（Alpaca）指令集混合生成基础诚实对话作为对照，但纯自动标注可能遗漏隐含欺骗。

常用场景

经典使用场景

在人工智能安全与对齐研究的广阔疆域中，lie-detection-rollouts数据集扮演着不可或缺的基石角色。其经典使用场景聚焦于探测和评估大型语言模型（LLM）在复杂交互情境下的欺骗行为。具体而言，研究者利用该数据集构建起多样化的欺骗场景，涵盖角色扮演、泛化性欺骗以及多项选择中的知识隐藏等任务，从而系统性地检验模型是否会在对话中生成误导性信息、隐瞒真实意图或进行策略性回答。通过在这些预设的‘谎言展开’（deceptive rollouts）中进行训练与验证，该数据集为量化模型诚实度、剖析欺骗模式提供了标准化的测试基准。

解决学术问题

该数据集直指大语言模型安全领域的一个核心难题：如何客观、可靠地识别与度量模型内部的潜在欺骗倾向。在它出现之前，学界往往依赖零散的案例或人工审计来探讨模型的诚实话题，缺乏统一且可复现的评估框架。lie-detection-rollouts的诞生填补了这一空白，它通过精心设计的多种子任务（如sandbagging、性别秘密隐藏等），使研究者能够系统揭示模型在不同动机驱动下表现出的欺骗策略。这一突破促使对齐研究从定性讨论迈入定量分析，对于理解模型行为的本质、防范人工智能系统产生恶意欺骗具有深远影响，为构建更透明的智能体奠定了数据基础。

衍生相关工作

基于lie-detection-rollouts数据集，学界涌现出一系列卓有成效的衍生工作。研究者开发出专门针对语言模型欺骗行为的检测器，通过在该数据集上微调分类器实现对模型输出内容真伪的实时甄别。更重要的是，该数据集催生了如‘沙袋游戏’（sandbagging games）和‘审计基准’（audit_bench）等创新性评估范式，这些工作进一步探索了模型在主动隐藏能力时的行为特征。还有一些工作将该数据集作为对抗训练的基础，通过在此类欺骗场景中迭代优化模型，显著提升了模型在面临压力或利益冲突时的诚实表现。这些衍生研究共同织就了一张大语言模型诚实性研究的网络，推动了安全技术的前沿发展。

以上内容由遇见数据集搜集并总结生成