five

Deceptive Patterns Dataset

收藏
arXiv2025-01-23 更新2025-01-25 收录
下载链接:
https://github.com/GalaxyHBXY/DPGuard
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集由墨尔本大学、CSIRO Data61等机构联合创建,旨在研究用户界面中的欺骗性模式。数据集包含6725张图片和10421个欺骗性模式实例,数据来源于移动应用和网站的用户界面截图。数据集通过整合现有小规模数据集和新样本,涵盖了多种欺骗性模式,如隐藏费用、强制连续性等。该数据集的应用领域包括用户界面设计分析、欺骗性模式检测工具开发等,旨在帮助识别和减少用户界面中的欺骗性设计,提升用户体验和安全性。
提供机构:
墨尔本大学, CSIRO Data61, 慕尼黑工业大学, 西澳大利亚大学
创建时间:
2025-01-23
搜集汇总
数据集介绍
main_image_url
构建方式
Deceptive Patterns Dataset 的构建基于对现有小规模数据集的整合与扩展,结合了来自移动应用和网站的新样本,最终形成了包含6,725张图像和10,421个欺骗性模式实例的综合性数据集。研究团队首先通过系统分析现有的欺骗性模式分类法,开发了一个统一的框架,并在类别和范围层面进行了细化。随后,通过手动添加1,666个最新的用户界面样本,进一步丰富了数据集的内容。该数据集不仅涵盖了多种平台,还确保了每个类别至少有5个代表性实例,从而为后续研究提供了坚实的基础。
特点
Deceptive Patterns Dataset 的特点在于其跨平台的广泛覆盖和多样化的欺骗性模式实例。数据集包含了从2017年至2024年的用户界面图像,确保了数据的时效性和代表性。每个欺骗性模式实例都经过详细的标注,涵盖了21个不同的类别,如“强迫连续性”、“隐藏成本”和“隐私欺骗”等。此外,数据集还包含了3,377个非欺骗性用户界面图像,为模型训练和验证提供了平衡的样本。这种多样性和广泛性使得该数据集成为研究欺骗性模式检测的理想选择。
使用方法
Deceptive Patterns Dataset 的使用方法主要围绕欺骗性模式的自动检测展开。研究团队开发了DPGuard工具,该工具结合了二元分类器和多模态大语言模型(MLLM),能够自动识别用户界面中的欺骗性模式。首先,二元分类器对输入的图像进行初步筛选,判断是否存在欺骗性模式。如果检测到欺骗性模式,MLLM将进一步分析并识别具体的欺骗性模式类型。此外,DPGuard还引入了提示突变技术,通过迭代优化提示词,确保模型能够准确捕捉每个欺骗性模式的关键特征。这种混合方法显著减少了人工干预的需求,并为跨平台的欺骗性模式检测提供了高效且可扩展的解决方案。
背景与挑战
背景概述
Deceptive Patterns Dataset 是由墨尔本大学和CSIRO Data61的研究团队于2024年创建的,旨在解决用户界面设计中故意误导用户的问题。该数据集包含了6,725张图像和10,421个欺骗性模式实例,涵盖了移动应用和网站中的多种欺骗性设计。研究团队通过整合现有小规模数据集和新样本,构建了一个全面的欺骗性模式分类体系,并开发了DPGuard工具,利用多模态大语言模型(MLLMs)进行自动检测。该数据集的研究背景源于对用户界面中欺骗性设计的日益关注,尤其是在隐私和安全方面的潜在风险。通过这一数据集,研究人员能够更好地理解欺骗性设计的演变趋势,并为相关领域的自动化检测提供了重要支持。
当前挑战
Deceptive Patterns Dataset 面临的挑战主要包括两个方面。首先,欺骗性设计本身具有高度的复杂性和多样性,尤其是在不同平台和语言中的表现形式各异,这使得自动化检测工具难以准确识别和分类这些模式。其次,数据集的构建过程中也面临诸多挑战,例如如何整合不同来源的数据、如何确保数据集的时效性以及如何处理欺骗性设计的动态变化。此外,现有的基于规则的方法在处理复杂的欺骗性设计时表现不佳,尤其是在面对细微的文本或视觉变化时,容易失效。因此,如何设计一个能够适应不断变化的欺骗性设计、并减少人工干预的自动化检测系统,是该数据集面临的核心挑战之一。
常用场景
经典使用场景
Deceptive Patterns Dataset 主要用于检测和分析用户界面中的欺骗性设计模式(Deceptive Patterns, DPs)。这些设计模式通过视觉和语言操纵,利用用户的认知偏差,迫使用户做出不符合其最佳利益的决定。该数据集广泛应用于移动应用和网站的用户界面分析,帮助研究人员和开发者识别并消除这些潜在的欺骗性设计。
衍生相关工作
基于 Deceptive Patterns Dataset,研究人员开发了多种自动化检测工具,如 DPGuard。DPGuard 结合了二元分类器和多模态大语言模型(MLLM),能够高效地识别用户界面中的欺骗性设计模式。此外,该数据集还推动了欺骗性设计模式分类法的进一步细化,衍生出多个相关研究,如针对特定平台(如移动应用和网站)的欺骗性设计模式分析,以及跨语言和跨文化的研究。这些工作进一步丰富了欺骗性设计模式的研究领域,并为未来的自动化检测工具提供了理论基础。
数据集最近研究
最新研究方向
近年来,Deceptive Patterns Dataset 的研究方向主要集中在多模态检测和自动化工具的开发上。随着用户界面设计中的欺骗性模式(Deceptive Patterns, DPs)日益复杂,传统的手动检测方法已无法应对其快速演变的特性。为此,研究者们提出了DPGuard,一种基于多模态大语言模型(MLLMs)的自动化检测工具。该工具通过结合成熟的分类模型和多模态大语言模型,能够有效捕捉用户界面中的细微欺骗性模式,显著减少了人工干预的需求。实验结果表明,DPGuard在检测欺骗性模式方面优于现有的最先进方法。此外,研究者还通过对2000个流行的移动应用和网站进行广泛评估,揭示了23.61%的移动应用截图和47.27%的网站截图至少包含一个欺骗性模式实例。这些研究不仅推动了欺骗性模式检测技术的发展,还为互联网欺骗行为的治理提供了重要的数据支持。
相关研究论文
  • 1
    50 Shades of Deceptive Patterns: A Unified Taxonomy, Multimodal Detection, and Security Implications墨尔本大学, CSIRO Data61, 慕尼黑工业大学, 西澳大利亚大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作