SAPA-Bench

Name: SAPA-Bench
Creator: Shandong University, Hong Kong University of Science and Technology (Guangzhou), Columbia University, Xi'an Jiaotong University
Published: 2025-08-27 08:41:28
License: 暂无描述

arXiv2025-08-27 更新2025-11-25 收录

下载链接：

https://hf-mirror.com/datasets/OmniQuest/SAPA-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SAPA-Bench是一个用于评估智能手机代理隐私意识的大规模基准。它包含7,138个场景，涵盖了个人信息的各个方面，如账户凭证、个人信息、财务和支付等。数据集由来自50个流行英语智能手机应用程序的UI截图组成，每个场景都标注了隐私相关信息，如指令和响应、暴露方式和位置、隐私敏感度等级和隐私类型。SAPA-Bench旨在帮助研究人员评估智能手机代理在隐私识别、定位、分类、严重性评估和风险响应方面的能力。

SAPA-Bench is a large-scale benchmark for evaluating the privacy awareness of smartphone agents. It contains 7,138 scenarios covering all aspects of personal information, such as account credentials, personal data, financial and payment-related matters. The dataset consists of UI screenshots from 50 popular English-language smartphone applications, with each scenario annotated with privacy-related information including instructions and responses, exposure methods and locations, privacy sensitivity levels, and privacy types. SAPA-Bench is designed to help researchers assess the capabilities of smartphone agents in privacy identification, localization, classification, severity evaluation, and risk response.

提供机构：

Shandong University, Hong Kong University of Science and Technology (Guangzhou), Columbia University, Xi'an Jiaotong University

创建时间：

2025-08-27

搜集汇总

数据集介绍

构建方式

在移动智能代理隐私意识评估领域，SAPA-Bench通过五阶段标注流程构建而成。该流程首先从GUI-Odyssey和OS-Atlas数据集中筛选约8万张原始截图，利用GPT-4o自动识别潜在隐私敏感内容。随后采用大语言模型自动生成包含隐私风险的用户指令与对应响应模板，并通过两轮人工验证确保标注质量。最终形成涵盖7,138个场景的结构化数据集，每个场景均标注隐私泄露模态、敏感度等级与具体隐私类型。

特点

该数据集具备多维度隐私评估特性，覆盖账户凭证、金融支付等八大隐私类别与三级敏感度分层。其场景来源涵盖50款主流移动应用，通过真实界面截图与自然语言指令的组合构建隐私风险情境。数据集呈现现实世界中隐私敏感度的不均衡分布，例如个人通信类任务中高风险场景占比超过40%，而设备权限类任务以中低风险为主，这种层次化结构为评估智能代理的细粒度隐私感知能力提供了坚实基础。

使用方法

研究者可借助该数据集系统评估多模态大语言模型在隐私识别率、定位准确率等五个维度的表现。通过输入包含界面截图与用户指令的多模态数据，观察智能代理是否能够准确识别隐私内容、定位泄露源头并生成风险警示响应。评估过程支持无提示、隐式提示与显式提示三种实验条件，便于分析不同提示策略对隐私意识的影响，为开发具备隐私保护能力的移动智能代理提供标准化测试框架。

背景与挑战

背景概述

随着多模态大语言模型与智能手机代理技术的迅猛发展，用户日益依赖智能助手自动化执行日常任务，然而这些代理在操作过程中被授予了对敏感个人信息的广泛访问权限。为系统评估此类代理的隐私意识水平，山东大学、香港科技大学等机构的研究团队于2025年联合创建了SAPA-Bench数据集。该数据集作为首个大规模隐私感知基准，涵盖7,138个真实场景，通过标注隐私类型、敏感度层级与泄露位置等维度，为衡量智能代理在隐私识别、分类及风险响应等方面的能力提供了标准化框架，对推动隐私保护与功能效用的平衡发展具有重要学术价值。

当前挑战

在解决领域问题层面，现有智能手机代理面临隐私检测能力不足的核心挑战，具体表现为对低敏感度场景的识别率普遍低于40%，且在隐私定位与分类任务中准确率难以突破30%。构建过程中需克服多模态数据协同标注的复杂性，既要确保自动生成的指令-响应对符合真实交互逻辑，又需通过五阶段人工验证流程解决标注一致性问题，同时还需建立兼顾隐私类型与风险层级的多维评估体系以应对现实场景中隐私语义的细微差异。

常用场景

经典使用场景

在智能手机代理技术迅猛发展的背景下，SAPA-Bench作为首个大规模隐私感知基准，被广泛应用于评估多模态大语言模型驱动的智能代理在识别、定位和分类隐私敏感内容方面的能力。该数据集通过涵盖7,138个真实场景，系统测试代理在账户凭证、位置信息等八类隐私泄露情境下的表现，为研究社区提供了量化隐私感知性能的标准框架。

衍生相关工作

该基准催生了多项隐私增强型智能代理的研究工作，例如结合强化学习与人类反馈的隐私对齐训练框架。受其启发，后续研究开始探索动态提示优化策略，通过显式风险提示将代理的风险意识提升至67%。这些衍生成果逐步形成隐私感知代理的技术范式，推动整个领域向更精细化的隐私-效用权衡机制演进。

数据集最近研究