Deceptive Patterns Dataset

Name: Deceptive Patterns Dataset
Creator: 墨尔本大学, CSIRO Data61, 慕尼黑工业大学, 西澳大利亚大学
Published: 2025-01-23 11:28:38
License: 暂无描述

arXiv2025-01-23 更新2025-01-25 收录

下载链接：

https://github.com/GalaxyHBXY/DPGuard

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由墨尔本大学、CSIRO Data61等机构联合创建，旨在研究用户界面中的欺骗性模式。数据集包含6725张图片和10421个欺骗性模式实例，数据来源于移动应用和网站的用户界面截图。数据集通过整合现有小规模数据集和新样本，涵盖了多种欺骗性模式，如隐藏费用、强制连续性等。该数据集的应用领域包括用户界面设计分析、欺骗性模式检测工具开发等，旨在帮助识别和减少用户界面中的欺骗性设计，提升用户体验和安全性。

提供机构：

墨尔本大学, CSIRO Data61, 慕尼黑工业大学, 西澳大利亚大学

创建时间：

2025-01-23

搜集汇总

数据集介绍

构建方式

Deceptive Patterns Dataset 的构建基于对现有小规模数据集的整合与扩展，结合了来自移动应用和网站的新样本，最终形成了包含6,725张图像和10,421个欺骗性模式实例的综合性数据集。研究团队首先通过系统分析现有的欺骗性模式分类法，开发了一个统一的框架，并在类别和范围层面进行了细化。随后，通过手动添加1,666个最新的用户界面样本，进一步丰富了数据集的内容。该数据集不仅涵盖了多种平台，还确保了每个类别至少有5个代表性实例，从而为后续研究提供了坚实的基础。

特点

Deceptive Patterns Dataset 的特点在于其跨平台的广泛覆盖和多样化的欺骗性模式实例。数据集包含了从2017年至2024年的用户界面图像，确保了数据的时效性和代表性。每个欺骗性模式实例都经过详细的标注，涵盖了21个不同的类别，如“强迫连续性”、“隐藏成本”和“隐私欺骗”等。此外，数据集还包含了3,377个非欺骗性用户界面图像，为模型训练和验证提供了平衡的样本。这种多样性和广泛性使得该数据集成为研究欺骗性模式检测的理想选择。

使用方法

Deceptive Patterns Dataset 的使用方法主要围绕欺骗性模式的自动检测展开。研究团队开发了DPGuard工具，该工具结合了二元分类器和多模态大语言模型（MLLM），能够自动识别用户界面中的欺骗性模式。首先，二元分类器对输入的图像进行初步筛选，判断是否存在欺骗性模式。如果检测到欺骗性模式，MLLM将进一步分析并识别具体的欺骗性模式类型。此外，DPGuard还引入了提示突变技术，通过迭代优化提示词，确保模型能够准确捕捉每个欺骗性模式的关键特征。这种混合方法显著减少了人工干预的需求，并为跨平台的欺骗性模式检测提供了高效且可扩展的解决方案。

背景与挑战

背景概述

Deceptive Patterns Dataset 是由墨尔本大学和CSIRO Data61的研究团队于2024年创建的，旨在解决用户界面设计中故意误导用户的问题。该数据集包含了6,725张图像和10,421个欺骗性模式实例，涵盖了移动应用和网站中的多种欺骗性设计。研究团队通过整合现有小规模数据集和新样本，构建了一个全面的欺骗性模式分类体系，并开发了DPGuard工具，利用多模态大语言模型（MLLMs）进行自动检测。该数据集的研究背景源于对用户界面中欺骗性设计的日益关注，尤其是在隐私和安全方面的潜在风险。通过这一数据集，研究人员能够更好地理解欺骗性设计的演变趋势，并为相关领域的自动化检测提供了重要支持。

当前挑战

Deceptive Patterns Dataset 面临的挑战主要包括两个方面。首先，欺骗性设计本身具有高度的复杂性和多样性，尤其是在不同平台和语言中的表现形式各异，这使得自动化检测工具难以准确识别和分类这些模式。其次，数据集的构建过程中也面临诸多挑战，例如如何整合不同来源的数据、如何确保数据集的时效性以及如何处理欺骗性设计的动态变化。此外，现有的基于规则的方法在处理复杂的欺骗性设计时表现不佳，尤其是在面对细微的文本或视觉变化时，容易失效。因此，如何设计一个能够适应不断变化的欺骗性设计、并减少人工干预的自动化检测系统，是该数据集面临的核心挑战之一。

常用场景

经典使用场景

Deceptive Patterns Dataset 主要用于检测和分析用户界面中的欺骗性设计模式（Deceptive Patterns, DPs）。这些设计模式通过视觉和语言操纵，利用用户的认知偏差，迫使用户做出不符合其最佳利益的决定。该数据集广泛应用于移动应用和网站的用户界面分析，帮助研究人员和开发者识别并消除这些潜在的欺骗性设计。

衍生相关工作

基于 Deceptive Patterns Dataset，研究人员开发了多种自动化检测工具，如 DPGuard。DPGuard 结合了二元分类器和多模态大语言模型（MLLM），能够高效地识别用户界面中的欺骗性设计模式。此外，该数据集还推动了欺骗性设计模式分类法的进一步细化，衍生出多个相关研究，如针对特定平台（如移动应用和网站）的欺骗性设计模式分析，以及跨语言和跨文化的研究。这些工作进一步丰富了欺骗性设计模式的研究领域，并为未来的自动化检测工具提供了理论基础。

数据集最近研究