ST-WebAgentBench

Name: ST-WebAgentBench
Creator: IBM Research Haifa
Published: 2024-10-09 17:13:38
License: 暂无描述

arXiv2024-10-09 更新2024-10-11 收录

下载链接：

https://sites.google.com/view/st-webagentbench/home

下载链接

链接失效反馈

官方服务：

资源简介：

ST-WebAgentBench是由IBM Research Haifa开发的专为评估企业环境中网页代理的安全性和可信度而设计的数据集。该数据集包含234个条目，旨在通过模拟真实的企业交互环境来评估代理的行为。数据集的创建过程结合了现有的WebArena数据集，并引入了新的评估指标，如Completion under Policies (CuP)，以全面评估代理的安全性和政策遵循情况。该数据集主要应用于企业环境中，旨在解决网页代理在执行任务时的安全性和可信度问题，确保代理在复杂和动态的环境中能够安全、可靠地操作。

ST-WebAgentBench is a dataset developed by IBM Research Haifa, specifically constructed to evaluate the security and trustworthiness of web agents within enterprise environments. Comprising 234 entries, this dataset is designed to assess agent behaviors by simulating realistic enterprise interaction scenarios. Its development integrates the existing WebArena dataset and introduces novel evaluation metrics such as Completion under Policies (CuP) to comprehensively evaluate agent security and policy adherence. Primarily deployed in enterprise settings, this dataset targets resolving the security and trustworthiness challenges of web agents during task execution, ensuring that agents can operate safely and reliably in complex, dynamic environments.

提供机构：

IBM Research Haifa

创建时间：

2024-10-09

搜集汇总

数据集介绍

构建方式

ST-WebAgentBench 数据集的构建基于一个详细的框架，该框架定义了安全且可信赖（ST）的代理行为，并概述了 ST 策略的结构。数据集通过引入‘策略下的完成度’（Completion under Policies, CuP）指标来评估代理性能。该数据集扩展了 WebArena 的任务和应用环境，并将其集成到开源评估平台 BrowserGym 中。此外，数据集支持人机协作行动，允许代理在适当或不确定的情况下推迟决策或寻求人类指导。

特点

ST-WebAgentBench 数据集的特点在于其专注于评估企业环境中网页代理的安全性和可信赖性。与以往的基准不同，该数据集不仅关注任务完成度，还评估代理对组织策略的遵守、避免不安全操作以及维护用户信任的能力。此外，数据集支持人机协作行动，允许代理在必要时寻求人类指导，从而增强其在复杂环境中的适应性和安全性。

使用方法

使用 ST-WebAgentBench 数据集时，研究人员和开发者可以通过 BrowserGym 平台进行代理的评估和训练。数据集提供了详细的任务和策略模板，用户可以根据需要自定义任务和策略。评估过程中，代理的行为将根据 CuP 指标进行量化，以评估其在遵守策略和完成任务方面的表现。此外，数据集还提供了人机协作行动的接口，用户可以模拟人类干预以测试代理在复杂决策场景中的表现。

背景与挑战

背景概述

近年来，基于大型语言模型（LLMs）的网络代理技术取得了显著进展，特别是在自主网络导航和交互方面。然而，现有的基准测试主要侧重于有效性和准确性，忽略了安全性和可信性等关键因素，这些因素对于在企业环境中部署网络代理至关重要。ST-WebAgentBench数据集由IBM Research Haifa的研究团队创建，旨在评估网络代理在企业环境中的安全性和可信性。该数据集基于一个详细的框架，定义了安全和可信（ST）代理行为，并引入了在策略下完成（CuP）指标来评估代理性能。通过公开源代码和数据，该数据集旨在促进新一代更安全、更可信的AI代理的发展。

当前挑战

ST-WebAgentBench数据集面临的挑战包括：1) 在构建过程中，如何准确模拟复杂、现实的任务，处理应用程序漂移，并整合人机协作决策；2) 现有基准测试主要关注任务成功率，忽略了安全、策略遵循和可信性等关键因素。此外，当前最先进的代理在策略遵循方面表现不佳，无法完全依赖于关键业务应用。数据集的创建者提出了政策感知的设计原则，以提高代理的策略意识和合规性，但如何在实际应用中实现这些原则仍是一个重大挑战。

常用场景

经典使用场景

ST-WebAgentBench 数据集的经典使用场景在于评估基于大型语言模型（LLM）的网页代理在企业环境中的安全性和可信度。该数据集通过模拟真实的网页交互环境，测试代理在执行任务时的政策遵循情况、避免不安全操作的能力以及维护用户信任的能力。通过引入人类在环（human-in-the-loop）机制，代理可以在必要时寻求用户确认或指导，从而确保在复杂决策中的合规性。

实际应用

ST-WebAgentBench 数据集在实际应用中具有广泛的前景，特别是在需要高度安全性和可信度的企业环境中。例如，在金融、医疗和法律等领域，网页代理需要严格遵循组织政策和用户偏好，以避免潜在的风险和数据泄露。通过该数据集的评估，企业可以更自信地部署网页代理，自动化复杂的工作流程，提高效率和准确性，同时确保操作的安全性和合规性。

衍生相关工作

ST-WebAgentBench 数据集的发布催生了一系列相关研究工作，特别是在网页代理的安全性和可信度评估方面。例如，一些研究团队基于该数据集开发了新的评估方法和指标，进一步细化了代理在不同政策维度下的表现。此外，该数据集还激发了对网页代理架构的重新设计，旨在增强代理对政策的内在感知和遵守能力。这些衍生工作不仅推动了网页代理技术的发展，也为企业级应用提供了更坚实的理论和实践基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集