webarena
收藏AgentDAM: 自主Web代理的隐私泄露评估
数据集概述
- 数据集名称: AgentDAM
- 主要用途: 评估AI代理在满足数据最小化原则方面的能力,以防止无意中的隐私泄露。
- 相关论文: arxiv:2503.09780
- 开发者: Arman Zharmagambetov, Chuan Guo, Ivan Evtimov, Maya Pavlova, Ruslan Salakhutdinov, Kamalika Chaudhuri
安装与配置
-
Python版本: 3.10 或 3.11
-
依赖安装: bash conda create -n agentdam python==3.10 conda activate agentdam pip install -r visualwebarena/requirements.txt cd visualwebarena/ playwright install pip install -e .
-
单元测试: bash cd visualwebarena/ pytest -x
端到端评估
-
环境设置: 使用gitlab、shopping和reddit环境。
-
配置URL: bash export DATASET=webarena export SHOPPING="<your_shopping_site_domain>:7770" export SHOPPING_ADMIN="<your_e_commerce_cms_domain>:7780/admin" export REDDIT="<your_reddit_domain>:9999" export GITLAB="<your_gitlab_domain>:8023"
-
准备数据集: bash cd agentdam bash prepare.sh cd data/ python generate_test_data.py
-
设置API密钥:
-
OpenAI API密钥: bash export OPENAI_API_KEY=your_key
-
Azure API密钥: bash export USE_AZURE=true export AZURE_API_KEY=your_azure_api_key export AZURE_ENDPOINT=https://...
- 运行AgentDAM: bash python run_agentdam.py --instruction_path ./configs/p_cot_id_actree_3s.json --result_dir DIR_TO_STORE_RESULTS --test_config_base_dir=./data/wa_format/shopping_privacy/ --model gpt-4o --observation_type accessibility_tree --privacy_test
其他功能
- GPT-4o + SoM代理: 结合截图作为额外模态。
- 隐私感知系统提示 + CoT: 使用隐私感知系统提示和CoT演示。
- Llama-3.x模型: 使用vLLM运行Llama 3.x模型进行推理。
环境重置
- 每次端到端评估后必须重置环境。
许可证
- AgentDAM: CC-BY-NC 4.0
- VisualWebArena: MIT
- 数据: CC-BY-NC,部分数据受Llama 3.1许可证约束。




