BrowseComp

Name: BrowseComp
Creator: OpenAI
Published: 2025-04-17 06:27:45
License: 暂无描述

arXiv2025-04-17 更新2025-04-19 收录

下载链接：

https://github.com/openai/simple-evals

下载链接

链接失效反馈

官方服务：

资源简介：

BrowseComp是由OpenAI创建的一个简单但具有挑战性的基准数据集，用于衡量智能体浏览互联网的能力。该数据集包含1266个需要持续浏览互联网以寻找难以找到的、相互关联的信息的问题。这些问题虽然难度较大，但预测答案简短且易于验证。数据集的创建过程完全由人工完成，问题旨在挑战现有模型的能力。该数据集可应用于评估智能体在浏览互联网时的持久性和创造力，以解决信息检索问题。

BrowseComp is a simple yet challenging benchmark dataset created by OpenAI, designed to evaluate the web browsing capabilities of AI Agents. It contains 1,266 questions that require sustained internet browsing to locate hard-to-find and interconnected information. Although these questions are highly challenging, their corresponding answers are short and easy to verify. The entire creation process of the dataset was fully completed manually, and these questions are intended to challenge the capabilities of existing models. This dataset can be utilized to assess the persistence and creativity of AI Agents when browsing the internet to solve information retrieval tasks.

提供机构：

OpenAI

创建时间：

2025-04-17

搜集汇总

数据集介绍

构建方式

BrowseComp数据集由人类训练师精心构建，旨在评估AI代理在互联网上浏览和检索复杂信息的能力。训练师遵循严格的准则，设计出1266个具有挑战性的问题，这些问题要求深入浏览多个网页以寻找难以直接获取的、交织在一起的信息。每个问题都经过验证，确保现有模型（如GPT-4o和OpenAI Deep Research的早期版本）无法轻易解答，并且通过多次Google搜索确认答案不易在搜索结果的前几页中找到。此外，训练师还被要求确保另一个人类在十分钟内无法解决问题，从而保证问题的高难度。

特点

BrowseComp数据集的特点在于其问题的高难度和答案的简洁性。每个问题都设计为需要持久且创造性的浏览行为才能解答，但答案本身简短且易于验证。数据集覆盖了多样化的主题，包括电视节目、科学、艺术、历史等，确保了内容的广泛性。此外，数据集通过引入独特的canary字符串，防止了答案在训练语料库中的泄露，保证了评估的公正性。BrowseComp不仅测试模型的检索能力，还评估其在面对复杂信息时的持久性和创造性。

使用方法

使用BrowseComp数据集时，研究人员可以通过评估AI代理在解答问题时的表现来衡量其浏览和检索信息的能力。每个问题的答案均为短字符串，便于通过AI模型进行语义比对验证。数据集提供了明确的评分标准，使用与Humanity’s Last Exam相同的评分提示，确保评估的一致性和可靠性。研究人员可以通过调整测试时的计算资源（如并行采样和置信度投票策略）来优化模型性能，并分析模型在不同难度问题上的表现分布。数据集的开源性质鼓励社区进一步研究和反馈，推动AI代理在信息检索领域的进步。

背景与挑战

背景概述

BrowseComp是由OpenAI团队于2025年推出的一个专注于评估网络浏览智能体能力的基准测试数据集。该数据集包含1,266个复杂问题，旨在衡量智能体在互联网上持久导航、搜索难以获取的纠缠信息的能力。BrowseComp的设计灵感来源于编程竞赛对编码智能体的评估方式，其核心研究问题聚焦于智能体在信息检索过程中的持久性、创造性和事实推理能力。该数据集的创建标志着人工智能从简单的聊天机器人向具备复杂网络浏览能力的智能体发展的重要一步，为相关领域的研究提供了新的评估标准和挑战。

当前挑战

BrowseComp面临的挑战主要体现在两个方面：首先，在领域问题层面，该数据集旨在解决智能体在复杂网络环境中检索深度纠缠信息的难题，这要求智能体具备超越简单查询的高级浏览策略和跨源信息整合能力；其次，在构建过程中，研究人员面临如何设计既具有足够挑战性又能保持答案唯一性的问题，以及如何确保问题答案不易通过常规搜索引擎快速获取等技术挑战。此外，数据集的构建还需要平衡问题的难度与可验证性，确保每个问题都有明确且易于验证的参考答案。

常用场景

经典使用场景

BrowseComp数据集作为衡量智能代理在互联网上浏览能力的基准，其经典使用场景包括评估代理在多跳信息检索任务中的表现。通过设计一系列需要深度浏览和复杂推理的问题，BrowseComp能够有效测试代理在查找难以直接获取的信息时的持久性和创造力。这些问题通常涉及跨多个网页的信息整合，要求代理不仅能够理解复杂的查询条件，还能在大量噪声数据中准确锁定目标信息。

衍生相关工作

BrowseComp的推出催生了一系列相关研究和工作，特别是在智能代理和多跳信息检索领域。例如，基于BrowseComp的研究工作开始探索如何结合强化学习和自然语言处理技术，以提升代理在复杂浏览任务中的表现。此外，该数据集还启发了其他类似基准的开发，如针对多模态信息检索或跨语言信息检索的新数据集，进一步推动了智能代理技术的发展。

数据集最近研究