BEARCUBS

Name: BEARCUBS
Creator: 麻省大学阿默斯特分校，马里兰大学帕克分校
Published: 2025-03-11 07:50:30
License: 暂无描述

arXiv2025-03-11 更新2025-03-13 收录

下载链接：

https://bear-cubs.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

BEARCUBS是一个由UMass Amherst和Maryland College Park的研究人员创建的‘小而强大’的数据集，旨在通过复杂多样的文本和多媒体交互，评估计算机使用型网络代理在实时网络上的信息检索能力。该数据集包含的问题均有唯一且简短的答案，并伴有经过人类验证的浏览轨迹，以便透明地评估代理的性能和策略。

提供机构：

麻省大学阿默斯特分校，马里兰大学帕克分校

创建时间：

2025-03-11

搜集汇总

数据集介绍

构建方式

BEARCUBS数据集的构建方式独特，旨在评估计算机使用型网络代理的信息搜索能力。该数据集包含111个信息搜索问题，这些问题需要代理在真实网络环境中进行搜索、浏览和识别事实信息。构建过程中，确保了问题的多样性和复杂性，要求代理进行多模态交互，如视频理解和3D导航。每个问题都经过人工验证，并附有相应的简短答案和浏览轨迹，以便于透明地评估代理的性能和策略。

特点

BEARCUBS数据集的特点在于其真实性和复杂性。与之前的网络代理基准不同，解决BEARCUBS问题需要访问实时网络内容，而非合成或模拟页面，从而捕捉真实世界网络交互的不确定性。此外，BEARCUBS要求代理执行广泛的模态交互，这些交互不能通过基于文本的变通方法绕过。每个问题都有一个简短的、明确的答案和一个由人工验证的浏览轨迹，这为代理性能和策略的透明评估提供了便利。

使用方法

使用BEARCUBS数据集的方法包括：首先，数据集提供了一系列信息搜索问题，每个问题都有一个明确的答案和一个人类验证的浏览轨迹。其次，数据集定期更新，以替换无效或被污染的问题，保持基准的时效性。最后，数据集鼓励代理开发人员发布他们的轨迹和答案，以避免污染并继续提供有意义的评估。

背景与挑战

背景概述

BEARCUBS数据集由Yixiao Song, Katherine Thai, Chau Minh Pham, Yapei Chang, Mazin Nadaf, Mohit Iyyer等研究人员于2025年创建，旨在评估现代网络代理在真实世界环境中的信息检索能力。该数据集包含111个信息检索问题，要求代理能够通过发送命令到虚拟键盘和鼠标来与网页进行交互，以搜索、浏览和识别网络上的事实信息。与之前网络代理基准不同，解决BEARCUBS需要访问实时网络内容，而不是合成或模拟页面，从而捕捉到真实世界网络交互的不确定性；并且需要执行一系列广泛的跨模态交互（例如，视频理解，3D导航），这些交互不能通过基于文本的替代方案来绕过。BEARCUBS中的每个问题都有一个相应的简短、明确的答案和一个由人类验证的浏览轨迹，允许对代理的性能和策略进行透明的评估。BEARCUBS对相关领域的影响力体现在，它揭示了现代网络代理在处理真实世界网络交互时的挑战，并为未来网络代理的发展提供了重要的研究方向。

当前挑战

BEARCUBS数据集相关的挑战包括：1) 解决的领域问题的挑战：网络代理在处理真实世界网络交互时面临的挑战，例如访问实时网络内容、执行广泛的跨模态交互等；2) 构建过程中所遇到的挑战：数据集构建过程中遇到的挑战，例如网络污染、代理的替代方案、交互多样性最大化、评估速度慢等。

常用场景

经典使用场景

BEARCUBS 数据集主要被设计用来评估计算机使用型网络代理在现实世界网络环境中的信息搜索能力，包括浏览和识别事实信息的能力。通过解决 111 个信息搜索问题，BEARCUBS 要求代理访问实时网络内容，并执行广泛的多模态交互，例如视频理解和 3D 导航。这些问题具有简短、明确的答案和人类验证的浏览轨迹，从而可以透明地评估代理的性能和策略。

实际应用

BEARCUBS 数据集可以用于开发和评估计算机使用型网络代理，例如聊天机器人和虚拟助手。通过使用 BEARCUBS，研究人员可以测试代理在现实世界网络环境中的性能，并发现其存在的不足之处，从而改进代理的设计和实现。此外，BEARCUBS 还可以用于教育和培训计算机使用型网络代理，以提高其信息搜索和交互能力。

衍生相关工作

BEARCUBS 数据集的发布促进了相关研究的开展。例如，基于 BEARCUBS 的研究可以探索如何提高计算机使用型网络代理的多模态交互能力，如何评估代理的源可信度，以及如何改进代理的规划和策略执行能力。此外，BEARCUBS 还可以与其他网络代理评估基准相结合，以建立一个更加全面和完善的评估框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集