PhoneSafety

github2026-05-11 更新2026-05-15 收录

下载链接：

https://github.com/tangzhy/PhoneSafety

下载链接

链接失效反馈

官方服务：

资源简介：

PhoneSafety是一个包含700个安全关键时刻的基准数据集，用于评估手机使用代理。在每个时刻，代理的下一个动作被分类为：安全动作（SAA）——模型选择安全侧；不安全动作（UAR）——模型行动但跨越安全边界；无法执行任何有用操作（CFR）——模型不匹配任何一侧。数据集支持严格和最小化两种安全协议，并包含多模态提示（文本和截图），用于评估模型在安全性和能力方面的表现。

PhoneSafety is a benchmark dataset consisting of 700 safety-critical moments for evaluating phone-use AI agents. At each moment, the agent's next action is categorized into three types: Safe Action (SAA) — the model selects the safety-first option; Unsafe Action (UAR) — the model takes action but crosses the safety boundary; Cannot Perform Any Useful Operation (CFR) — the model fails to fall into either of the two aforementioned categories. The dataset supports two security protocols, strict and minimal, and contains multimodal prompts (text and screenshots) to assess both the safety and capability of models.

创建时间：

2026-05-04

原始信息汇总

PhoneSafety 数据集概述

基本信息

数据集名称：PhoneSafety
论文链接：Safe, or Simply Incapable? Rethinking Safety Evaluation for Phone-Use Agents
许可证：CC BY-NC-SA 4.0

数据集规模与内容

样本数量：700 个安全关键时刻（safety-critical moments）
评估任务：对手机使用智能体的下一步动作进行分类
分类体系（三类）：
- SAA（Safe Action）：模型选择安全的一侧
- UAR（Unsafe Action）：模型执行动作但跨越安全边界
- CFR（Capability Failure Rate）：模型未能做出有用动作

数据场景家族

场景类型	数量	描述
Safety（安全）	195	有害指令拒绝
Confirm（确认）	221	需要用户确认
OP（过度操作保护）	170	过度操作保护
TR（陷阱抵抗）	78	欺骗性用户界面抵抗
PM（权限最小化）	36	权限最小化

数据格式

每个样本（data/phonesafety_700.jsonl）包含以下字段：

case_id：唯一标识符
instruction：用户指令（中文）
violation_type：场景类型
violation_reason：安全关键原因
correct_action：安全行为（动作类型+坐标/文本）
gt_action：不安全行为
img_path：截图路径
action_history：先前动作记录
layer：风险层级（task/step）

评估协议

输入格式：单轮多模态提示
- 系统提示：动作空间定义（0-1000坐标，JSON输出）+ 安全协议
- 用户提示：任务指令 + 动作历史（文本）+ 当前截图
推理参数：temperature=0.1，max_tokens=4096
安全协议选项：
- strict：最大谨慎模式，风险动作前必须确认
- minimal：当用户指令提供授权时允许直接动作

评估指标

SAA + UAR + CFR = 100%
1-CFR：表示模型实际执行动作的比例（包含安全和 unsafe 动作）
示例评估结果：
- SAA：68.7%（481/700）
- UAR：16.4%（115/700）
- CFR：14.9%（104/700）
- 1-CFR：85.1%

搜集汇总

数据集介绍

构建方式

PhoneSafety是一个专为评估手机操控代理安全性的基准测试集，包含700个安全关键时刻。其构建基于精细化的场景设计，涵盖五种安全风险类别：有害指令拒绝（Safety）、用户确认需求（Confirm）、过度操作防护（OP）、欺骗性界面陷阱（TR）及权限最小化（PM）。每个时刻由任务指令、操作历史、当前屏幕截图及安全与不安全行为参考对构成，支持任务级与步骤级两层风险标注。

特点

该数据集的核心创新在于三元分类评估体系：将模型输出划分为安全行为（SAA）、不安全行为（UAR）和能力失败（CFR），后者特指模型未能执行任何有用操作的情况，从而区分“安全”与“无能”。支持严格与最小两种安全协议，严格协议要求高风险操作前必须确认，最小协议允许用户授权后直接行动。数据涵盖195个有害指令、221个确认需求、170个过度操作、78个界面陷阱及36个权限最小化场景，全面刻画手机交互中的安全挑战。

使用方法

使用PhoneSafety需先克隆仓库并运行setup_data.py自动下载数据。推理支持本地vLLM部署或云端OpenAI兼容API，通过run_inference.py指定协议类型与输出路径。评估时调用evaluate.py对比预测与基准标签，生成SAA、UAR、CFR三类占比及按风险类型细分的详细报告。建议在vLLM服务中设置最大模型长度不小于16384以适配高分辨率手机截图，推理参数采用温度0.1、最大令牌数4096以确保稳定输出。

背景与挑战

背景概述

PhoneSafety是一个专用于评估手机操作代理安全性的基准数据集，由研究团队于2026年提出，相关论文发表于arXiv。该数据集包含700个安全关键场景，旨在系统性地揭露当前代理在手机交互中的安全隐患，而非简单衡量其任务完成能力。研究围绕一个核心问题展开：代理在面对潜在风险时，是真正具备安全认知而主动规避，抑或仅仅因能力不足而未能执行危险操作。PhoneSafety的提出填补了现有安全评估基准的空白，为衡量代理在真实手机环境中的安全决策能力提供了重要参考。

当前挑战

PhoneSafety所解决的领域挑战在于，传统的手机代理评估指标多聚焦于任务成功率，忽视了对安全性的细粒度考察，导致代理可能在缺乏安全机制的情况下盲目执行高风险操作。具体而言，挑战包括：1)区分代理的‘安全拒绝’与‘能力失败’，即代理在安全关键时刻是因识别风险而规避，还是因无法执行操作而未能实施危险行为；2)构建过程中需获取真实手机屏幕截图与动作轨迹，以模拟各类风险场景，包括有害指令拒绝、用户确认延迟、过度操作、界面欺骗及权限最小化等复杂情境，确保基准的生态效度与全面性。

常用场景

经典使用场景

PhoneSafety数据集专为评估手机操作智能体的安全性而设计，其核心应用场景是在智能体执行用户指令的过程中，检测其是否会跨越安全边界。该基准包含700个关键安全时刻，每个时刻提供一张高分辨率手机截图、用户指令及历史操作记录，要求智能体在连续动作中选择安全行为，从而检验其在真实手机环境中的安全决策能力。研究者可通过严格或最小两种安全协议进行测试，量化模型在安全、不安全及功能失效三类结果上的表现。

衍生相关工作

PhoneSafety的出现催生了一系列后续研究，主要包括针对手机智能体的安全对齐算法改进、多模态安全协议优化以及细粒度安全行为建模。研究者基于其六种违规范畴，开发了专门的安全拒绝策略训练方法，通过强化学习使模型在确认、过度操作等高危场景中更倾向于保守行为。同时，该数据集启发了分层安全评估框架的构建，将指令级与步骤级风险相结合，推动了对手机操作智能体内在决策机制更深入的因果分析。

数据集最近研究