webarena

github2025-03-20 更新2025-03-21 收录

下载链接：

https://github.com/facebookresearch/ai-agent-privacy

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估自主Web代理的隐私泄漏情况，支持在购物、GitLab和Reddit等环境中进行测试。数据集通过生成测试数据并转换为webarena格式，以便进行隐私测试。

This dataset is designed to evaluate the privacy leakage of autonomous web agents, and supports testing in environments such as shopping platforms, GitLab and Reddit. It generates test data and converts it into the webarena format to facilitate privacy leakage testing.

创建时间：

2025-03-20

原始信息汇总

AgentDAM: 自主Web代理的隐私泄露评估

数据集概述

数据集名称: AgentDAM
主要用途: 评估AI代理在满足数据最小化原则方面的能力，以防止无意中的隐私泄露。
相关论文: arxiv:2503.09780
开发者: Arman Zharmagambetov, Chuan Guo, Ivan Evtimov, Maya Pavlova, Ruslan Salakhutdinov, Kamalika Chaudhuri

安装与配置

Python版本: 3.10 或 3.11
依赖安装: bash conda create -n agentdam python==3.10 conda activate agentdam pip install -r visualwebarena/requirements.txt cd visualwebarena/ playwright install pip install -e .
单元测试: bash cd visualwebarena/ pytest -x

端到端评估

环境设置: 使用gitlab、shopping和reddit环境。
配置URL: bash export DATASET=webarena export SHOPPING="<your_shopping_site_domain>:7770" export SHOPPING_ADMIN="<your_e_commerce_cms_domain>:7780/admin" export REDDIT="<your_reddit_domain>:9999" export GITLAB="<your_gitlab_domain>:8023"
准备数据集: bash cd agentdam bash prepare.sh cd data/ python generate_test_data.py
设置API密钥:

OpenAI API密钥: bash export OPENAI_API_KEY=your_key
Azure API密钥: bash export USE_AZURE=true export AZURE_API_KEY=your_azure_api_key export AZURE_ENDPOINT=https://...

运行AgentDAM: bash python run_agentdam.py --instruction_path ./configs/p_cot_id_actree_3s.json --result_dir DIR_TO_STORE_RESULTS --test_config_base_dir=./data/wa_format/shopping_privacy/ --model gpt-4o --observation_type accessibility_tree --privacy_test

其他功能

GPT-4o + SoM代理: 结合截图作为额外模态。
隐私感知系统提示 + CoT: 使用隐私感知系统提示和CoT演示。
Llama-3.x模型: 使用vLLM运行Llama 3.x模型进行推理。

环境重置

每次端到端评估后必须重置环境。

许可证

AgentDAM: CC-BY-NC 4.0
VisualWebArena: MIT
数据: CC-BY-NC，部分数据受Llama 3.1许可证约束。

搜集汇总

数据集介绍

构建方式

WebArena数据集的构建旨在评估AI代理在满足数据最小化原则方面的能力，以防止隐私泄露。该数据集通过模拟真实网络环境（如购物、Reddit和GitLab）来生成测试用例，每个测试用例以JSON格式存储，包含特定网站的配置信息。数据集的生成过程涉及自动化脚本和API调用，确保测试用例的多样性和复杂性。

特点

WebArena数据集的特点在于其高度仿真的网络环境和多样化的测试场景。数据集涵盖了多个主流网站的操作场景，能够全面评估AI代理在不同环境下的隐私保护能力。此外，数据集支持多模态输入（如文本和图像），并通过Set-of-Marks（SoM）技术增强模型的视觉理解能力，使其能够处理复杂的交互任务。

使用方法

使用WebArena数据集时，用户需先配置环境变量并安装相关依赖。通过运行自动化脚本，用户可以将数据集转换为WebArena格式，并启动评估流程。评估过程中，用户可以选择不同的模型（如GPT-4o或Llama-3.x）和观察类型（如可访问性树或图像模态），并通过指定配置文件运行测试用例。评估结果将保存为HTML文件，便于后续分析和可视化。

背景与挑战

背景概述

WebArena数据集由Arman Zharmagambetov、Chuan Guo、Ivan Evtimov、Maya Pavlova、Ruslan Salakhutdinov和Kamalika Chaudhuri等研究人员于2023年开发，旨在评估自主网络代理在满足数据最小化原则方面的能力，以防止隐私泄露。该数据集的核心研究问题集中在如何通过自动化代理在复杂的网络环境中有效执行任务，同时确保用户隐私的保护。WebArena的创建为隐私保护领域的研究提供了重要的基准测试工具，推动了人工智能在隐私保护方面的应用与发展。

当前挑战

WebArena数据集在构建和应用过程中面临多重挑战。首先，数据最小化原则的实现要求代理在复杂的网络环境中精确识别和处理敏感信息，这对模型的推理能力和隐私保护机制提出了极高要求。其次，数据集的构建涉及多个真实世界的网络环境（如GitLab、Reddit等），这些环境的动态性和复杂性增加了数据采集和标注的难度。此外，评估过程中需要处理不同模态的数据（如文本和图像），这对模型的跨模态理解和处理能力提出了挑战。最后，确保评估结果的准确性和可重复性也是一个重要挑战，尤其是在面对网络环境的不确定性和模型性能的波动时。

常用场景

经典使用场景

WebArena数据集主要用于评估AI代理在满足数据最小化原则方面的能力，特别是在防止无意隐私泄露方面。该数据集通过模拟真实世界的网络环境，如购物网站、Reddit和GitLab，提供了一个全面的测试平台，用于评估AI代理在处理复杂任务时的隐私保护能力。

解决学术问题

WebArena数据集解决了AI代理在隐私保护方面的关键学术问题。通过提供一个标准化的评估框架，研究人员可以系统地测试和比较不同AI模型在隐私保护方面的表现。这不仅推动了隐私保护技术的发展，还为未来的研究提供了可靠的数据支持。

衍生相关工作

WebArena数据集衍生了一系列相关研究工作，特别是在隐私保护领域。例如，基于该数据集的AgentDAM项目，进一步开发了隐私感知的系统提示和链式思维（CoT）技术，显著提升了AI代理在隐私保护任务中的表现。此外，该数据集还启发了更多关于多模态AI代理的研究，如结合文本和图像的隐私保护策略。

以上内容由遇见数据集搜集并总结生成