PSP (Politically Sensitive Prompts)
收藏arXiv2025-11-28 更新2025-12-02 收录
下载链接:
https://huggingface.co/datasets/promptfoo/CCP-sensitive-prompts
下载链接
链接失效反馈官方服务:
资源简介:
PSP(政治敏感提示)数据集由多所国际研究机构联合创建,旨在系统探究大型语言模型在政治敏感语境下的拒绝行为。该数据集规模约为12.3万条提示,其数据源包括来自X平台的12.2万条被审查推文,以及HuggingFace上约1.36千条聚焦中国语境的敏感提示。构建过程通过大语言模型对原始内容进行系统化转换与泛化,使提示在明确表达政治敏感意图的同时,覆盖多元地缘政治背景。该数据集主要应用于评估LLM的安全护栏与政治审查界限,旨在区分模型拒绝行为是源于正当安全防护还是潜在的政治偏见,为模型对齐审计与信任维护提供关键基准。
The PSP (Political Sensitive Prompt) dataset was jointly developed by multiple international research institutions, with the goal of systematically investigating the refusal behaviors of large language models (LLMs) in politically sensitive contexts. This dataset contains approximately 123,000 prompt entries in total. Its data sources cover 122,000 censored tweets from X platform, and around 1,360 sensitive prompts focused on the Chinese context sourced from HuggingFace. In the construction phase, large language models were employed to systematically transform and generalize the original content, enabling the prompts to clearly convey politically sensitive intentions while covering diverse geopolitical backgrounds. This dataset is primarily utilized to evaluate the safety guardrails and political censorship boundaries of LLMs, with the objective of differentiating whether a model's refusal behaviors arise from legitimate safety protection or potential political biases, thereby providing a critical benchmark for model alignment auditing and trust maintenance.
提供机构:
新加坡管理大学, 的里雅斯特大学, AREA科学园, 卡内基梅隆大学, 多伦多大学, Vector研究所, 马克斯·普朗克智能系统研究所, 密歇根大学
创建时间:
2025-11-28
原始信息汇总
CCP Sensitive Prompts 数据集概述
数据集基本信息
- 数据集名称:CCP Sensitive Prompts
- 许可证:CC BY-NC 4.0
- 主要语言:英语 (en)
数据集内容描述
该数据集包含涉及中国敏感话题的提示词。这些提示词很可能受到中国模型的审查。
搜集汇总
数据集介绍

构建方式
在数字时代内容审查机制日益复杂的背景下,PSP数据集的构建旨在系统探究大型语言模型在政治敏感语境中的拒绝行为。该数据集通过整合两个公开可得的互联网数据源——涵盖多国敏感推文的数据集以及聚焦中国语境下敏感提示的集合,并采用深度语言模型进行系统性转化与泛化。具体而言,研究团队利用DeepSeek R1 70B模型对原始内容进行意图提取、地缘政治语境扩展及明确化重构,最终形成包含3600条明确政治敏感提示的标准化语料库,确保了提示在多样地缘背景下的代表性与表述的直接性。
特点
PSP数据集的核心特征在于其专门针对政治敏感性设计的系统化结构。该数据集不仅覆盖了包括美国、法国、中国、俄罗斯、意大利和以色列在内的多国政治语境,还通过泛化策略将单一语境下的敏感主题适配至不同地缘背景,从而实现了跨文化政治议题的广泛涵盖。其提示表述均经过精心设计,以明确、直接的方式呈现敏感意图,有效避免了模糊或中性措辞可能导致的模型响应偏差。此外,数据集附带的隐式变体PSP_implicit通过模板化重构剥离了政治显性表述,为区分安全拒绝与政治审查提供了关键对比基准。
使用方法
PSP数据集主要用于评估大型语言模型在政治敏感内容上的行为模式,特别是在拒绝响应与潜在审查机制方面的表现。研究人员可通过向各类LLMs输入数据集中的提示,系统记录并分类模型的响应类型——完全拒绝、部分拒绝、无拒绝或失效输出。进一步地,通过对比模型在原始提示与其隐式变体上的拒绝率差异,可以量化模型行为中政治审查成分的比重。数据集还支持开展提示注入攻击实验,例如认知黑客技术,以探测模型在相互冲突的目标指令下的脆弱性。这些分析方法共同构成了一个多维评估框架,用于审计模型对齐策略中的政治偏见与审查倾向。
背景与挑战
背景概述
随着大型语言模型在信息检索与生成领域的广泛应用,其安全护栏与政治审查之间的界限日益模糊,引发了深刻的伦理关切。PSP数据集由Neemesh Yadav、Francesco Ortu、Zhijing Jin等学者于2025年构建,旨在系统探究语言模型在明确政治语境下的拒绝行为。该数据集通过整合来自互联网的公开审查内容,包括多国敏感提示与各国被删推文,转化为可直接测试模型反应的提示集合。其核心研究问题是区分模型拒绝行为源于真实安全防护还是政治动机的审查,为评估模型是否充当安全代理或宣传引擎提供了关键实证基础,推动了人工智能伦理与对齐领域的精细化研究。
当前挑战
PSP数据集致力于解决的核心领域挑战在于精准辨识语言模型拒绝行为的内在动机——即区分基于安全策略的合理拒绝与基于政治偏见的审查。这一挑战的复杂性体现在模型行为往往呈现灰色地带,例如部分拒绝或伦理困境响应。在构建过程中,研究团队面临两大主要挑战:一是原始数据源的局限,如推文意图隐晦与中国语境提示的地域狭隘性,需通过系统化重构实现政治敏感性的显化与地缘语境的泛化;二是提示注入攻击等对抗性方法的有效性评估,需设计严谨实验以揭示模型在冲突目标下的行为脆弱性,这些挑战共同构成了对模型政治中立性进行可靠审计的学术障碍。
常用场景
经典使用场景
在大型语言模型安全对齐与内容审核的研究领域,PSP数据集被广泛用于系统性地探测模型在政治敏感语境下的拒绝行为。研究者通过向不同LLMs输入该数据集中的明确政治敏感提示,观察并量化模型是否因内容的政治敏感性而非实际危害性而拒绝回应。这种经典使用场景通常涉及对比分析模型对相同敏感主题在不同国家语境下的反应差异,例如考察模型对中国相关议题的拒绝率是否显著高于其他地缘政治背景的同类议题,从而揭示模型内部可能存在的政治偏见或审查机制。
解决学术问题
PSP数据集有效解决了如何区分LLMs拒绝行为背后动机的核心学术难题。传统研究难以辨别模型拒绝回应是源于合理的安全防护策略,还是隐性的政治内容审查。该数据集通过构建显性政治敏感提示及其去政治化的隐式变体,为研究者提供了可操作的实验框架。基于此,学界能够量化模型的“审查率”,将因政治动机导致的过度拒绝与基于危害预防的合理拒绝分离开来,从而推动对模型对齐机制、价值偏见及地缘政治影响等深层问题的严谨评估。
衍生相关工作
围绕PSP数据集,学术界衍生出一系列深入探究LLMs政治行为的相关工作。例如,有研究借鉴其去政治化方法,开发了更精细的概念擦除技术,用于从模型表示中分离政治概念。另有工作扩展了其提示注入攻击框架,探索了认知黑客等对抗性策略如何诱发模型的伦理困境与部分拒绝行为。此外,该数据集还催生了针对模型拒绝机制的可解释性研究,以及跨文化、跨语种的政治敏感性比较分析,推动了关于AI与全球信息治理的交叉学科讨论。
以上内容由遇见数据集搜集并总结生成



