DarkPatterns-LLM Benchmark Dataset

github2025-12-31 更新2026-01-23 收录

下载链接：

https://github.com/sadia-sigma-lab/Benchmark-dataset-for-dark-patterns-in-llms

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含401个专家标注的指令-响应对，用于检测大型语言模型输出中的操纵性和有害行为。每个实例包含指令、被拒绝的操纵性/有害响应、被接受的安全响应、专家讨论和主要危害类别标签。数据集支持多维度的安全评估，涵盖7种危害类别，并采用严格的标注方法。

This dataset contains 401 expert-annotated instruction-response pairs, designed to detect manipulative and harmful behaviors in the outputs of large language models (LLMs). Each instance includes the instruction, a rejected manipulative/harmful response, an accepted safe response, expert discussions, and the primary harm category label. The dataset supports multi-dimensional security evaluations, covers seven harm categories, and adopts a rigorous annotation methodology.

创建时间：

2025-12-27

原始信息汇总

DarkPatterns-LLM Benchmark Dataset 概述

数据集基本信息

数据集名称：DarkPatterns-LLM Benchmark Dataset
核心目的：用于检测大型语言模型输出中的操纵性和有害行为。
伴随论文：DarkPatterns-LLM: A Multi-Layer Benchmark for Detecting Manipulative and Harmful AI Behavior
论文链接：https://arxiv.org/abs/2512.22470
项目网站：https://sadia-sigma-lab.github.io/darkpatterns-llm/
数据规模：包含401个专家标注的指令-响应对。
许可证：Creative Commons Attribution (CC BY 4.0) 许可证。

数据集内容与结构

每个数据实例包含以下字段：

instruction：用户提示或场景。
rejected：一个操纵性或有害的LLM响应。
accepted：一个安全的、非操纵性的替代响应。
discussion：解释危害及修正理由的专家论述。
category：主要危害类别标签。

危害分类体系

数据集采用基于心理学、伦理学、人机交互和AI安全文献的七类危害分类法：

法律/权力危害
心理危害
情感危害
身体危害
自主性危害
经济危害
社会危害

标注方法

标注者：AI安全、心理学和伦理学领域的领域专家。
标注内容：包含成对的有害和安全响应，用于对比评估。
标注一致性：Fleiss’ κ = 0.68。
质量控制：包含跨文化审查以减少文化偏见，以及用于格式一致性和去重的自动验证。

预期用途

本基准数据集旨在用于：

LLM的安全性评估和基准测试。
操纵和黑暗模式检测研究。
可解释的AI安全诊断。
保护自主性的AI系统评估。
政策、治理和监管一致性研究（例如欧盟AI法案）。
非预期用途：不应用于训练模型以生成操纵性内容。

评估框架与指标

数据集支持论文中引入的四层评估框架：

多粒度检测
多尺度意图分析
威胁协调协议
深度上下文风险对齐

关联评估指标：

操纵抵抗指数
上下文鲁棒性分数
利益相关者影响评估分数
时间危害动态分数

引用信息

若使用本数据集，请引用： bibtex @article{darkpatternsllm2025, title={DarkPatterns-LLM: A Multi-Layer Benchmark for Detecting Manipulative and Harmful AI Behavior}, author={Asif, Sadia and Rosales Laguan, Israel Antonio and Khan, Haris and Asif, Shumaila and Asif, Muneeb}, journal={arXiv preprint arXiv:2512.22470}, year={2025} }

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，构建高质量的数据集是评估大语言模型潜在风险的关键基础。DarkPatterns-LLM Benchmark Dataset的构建采用了严谨的专家标注方法，由人工智能安全、心理学及伦理学领域的专家共同参与。该数据集包含401条经过精心标注的指令-响应对，每条数据均提供了具有操纵性或危害性的拒绝响应、安全的接受响应以及详细的专家讨论说明。标注过程确保了较高的内部一致性，其Fleiss’ κ系数达到0.68，并通过跨文化审查与自动化验证来减少偏见并保证格式规范。

特点

该数据集的核心特征在于其多维度的危害分类体系与精细的评估框架。它突破了传统安全基准中二元标签的局限，依据心理学、伦理学及人机交互领域的理论，将危害行为系统地划分为法律/权力、心理、情感、身体、自主性、经济和社会危害等七个类别。数据集不仅提供了对比性的正负样本对，还嵌入了由论文提出的四层评估框架，包括多粒度检测、多尺度意图分析、威胁协调协议与深度上下文风险对齐，并配套了如操纵抵抗指数、上下文鲁棒性评分等一系列量化指标，为深入分析模型行为提供了结构化工具。

使用方法

本数据集旨在服务于人工智能安全的前沿研究与实践评估。研究人员可利用该基准对大语言模型进行安全性评估与基准测试，特别是针对模型输出中隐秘的操纵策略与危害行为进行检测与诊断。它支持对自主性保护人工智能系统的效能评估，并可为符合政策与监管要求（如欧盟《人工智能法案》）的研究提供数据基础。在使用时，应严格遵循其设计初衷，即用于安全研究与评估，而非训练模型生成有害内容，并需遵守CC BY 4.0许可协议进行引用与分发。

背景与挑战

背景概述

随着大型语言模型在医疗、金融、教育及治理等高风险领域决策中的影响力日益增强，其输出内容的安全性评估成为人工智能伦理研究的核心议题。现有安全基准多依赖于粗粒度的二元标签，难以捕捉基于心理学基础的微妙操纵策略。为填补这一空白，Sadia Asif等研究人员于2025年提出了DarkPatterns-LLM基准数据集，该数据集由401个经过专家标注的指令-响应对构成，并植根于心理学、伦理学及人机交互领域的学术文献，旨在系统评估损害用户自主权、信任与福祉的操纵性行为，为可解释的AI安全诊断与政策制定研究提供了关键工具。

当前挑战

该数据集致力于解决大型语言模型输出中操纵性与有害行为的检测问题，其核心挑战在于如何精准识别并分类那些隐蔽且具有心理操纵性的文本模式，这些模式往往超越了传统的内容安全过滤机制。在构建过程中，研究团队面临多重挑战：首先，需要建立一套跨学科、理论扎实的危害分类体系，涵盖法律、心理、情感等七个维度；其次，确保专家标注的一致性具有较高难度，尽管最终取得了Fleiss’ κ值为0.68的标注者间信度；此外，还需进行跨文化审查以减轻文化偏见，并通过自动化流程验证数据格式的一致性与重复项的剔除，这对数据集的严谨性与普适性提出了严格要求。

常用场景

经典使用场景

在人工智能安全研究领域，DarkPatterns-LLM基准数据集为评估大型语言模型输出中的操纵性与有害行为提供了标准化测试平台。该数据集通过401个专家标注的指令-响应对，系统覆盖了法律权力、心理情感、自主权等七类伤害范畴，使得研究人员能够深入剖析模型在医疗、金融等高风险场景下可能产生的隐性操控策略，从而推动更精细化的安全评估框架发展。

衍生相关工作

基于该数据集的多层评估范式，学术界已衍生出系列创新研究：例如将威胁协调协议扩展至跨文化语境下的偏见检测，利用语境鲁棒性评分开发动态风险预警系统。部分工作进一步融合了认知科学理论，通过操纵抵抗指数构建心理安全增强模型，这些探索持续丰富了可解释AI安全领域的方法论体系。

数据集最近研究