PROBE benchmark

github2025-10-30 更新2025-10-31 收录

下载链接：

https://github.com/fastino-ai/PROBE_benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

PROBE（主动解决瓶颈）基准测试评估AI代理在主动性方面的能力：通过持续观察预测用户需求，并在现实的多文档工作场景中自主解决问题。该数据集包含1,000个测试样本，涵盖简单/中等/困难难度，使用来自LinkedIn专业档案的真实人物角色，并提供多文档上下文（如电子邮件、日历和文档）。

PROBE (Proactive Bottleneck-Solving) benchmark evaluates the proactive capabilities of AI Agents: it assesses their ability to continuously observe and predict user needs, and independently solve problems in realistic multi-document work scenarios. This dataset includes 1,000 test samples covering three difficulty levels: easy, medium and hard, adopts real personas sourced from LinkedIn professional profiles, and provides multi-document contexts such as emails, calendars and documents.

创建时间：

2025-10-24

原始信息汇总

PROBE 基准数据集概述

数据集简介

PROBE（Proactive Resolution of Bottlenecks）基准用于评估AI代理的主动性能力：通过持续观察预测用户需求，并在真实的多文档工作场景中自主解决问题。主动代理必须搜索未指定的问题，识别关键瓶颈并执行适当的解决方案。

核心能力评估

搜索 — 在个性化数据存储中查找相关信息
识别 — 在检索内容中检测特定瓶颈
解决 — 执行适当操作以解决问题

数据集规模

1,000个测试样本，涵盖简单/中等/困难难度级别
真实人物角色来自LinkedIn专业档案
多文档上下文包含电子邮件、日历和文档
能力上限：即使最先进的模型也只能达到40%端到端成功率

数据集获取

推荐方式：从Hugging Face下载预生成数据集 bash huggingface-cli download gilfastino/PROBE --repo-type dataset --local-dir data/probe_benchmark

备选方式：生成自定义数据 bash python run.py --mode batch --count 5 --difficulty medium

评估指标

组件	测试内容	指标
搜索	检索相关文档	F1分数（精确率×召回率）
识别	检测正确瓶颈	精确匹配或LLM判断相似度
解决	选择正确操作+参数	操作匹配+参数准确率
总体	端到端性能	所有三个组件的平均值

基准测试运行

支持两种推理方式：

LLM基线：单次传递，使用原生批量API
代理基线：多步推理，支持ReAct、Reflexion、ReWOO等代理

技术配置

要求：Python 3.12+，OpenAI API密钥
可选扩展：代理基线、注释界面
环境变量：支持OpenAI、Anthropic、Google、HuggingFace等API密钥

引用信息

bibtex @article{pasternak2025probe, title={Beyond Reactivity: Measuring Proactive Problem Solving in LLM Agents}, author={Pasternak, Gil and Rajagopal, Dheeraj and White, Julia and Atreja, Dhruv and Thomas, Matthew and Hurn-Maloney, George and Lewis, Ash}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025} }

许可证

MIT许可证

搜集汇总

数据集介绍

构建方式

在人工智能代理研究领域，PROBE基准测试的构建采用了多阶段生成流程，通过模拟真实职场环境中的复杂情境来创建评估样本。该数据集基于LinkedIn专业档案构建了1000个测试样本，涵盖简单、中等和困难三个难度级别，每个样本均包含电子邮件、日历事件和文档等多模态上下文信息。数据生成过程运用了世界模型技术，系统化地模拟用户数据存储、识别关键瓶颈并设计相应解决方案，同时引入干扰项以增强评估的挑战性。

特点

PROBE基准测试的显著特征在于其专注于评估智能体的前瞻性解决问题的能力，而非传统的反应式交互。数据集包含由真实职场资料构建的个性化人物角色，每个测试场景都要求模型在未获得明确指令的情况下自主发现问题并执行解决方案。该基准测试设计了三个核心能力评估维度：信息检索、瓶颈识别和问题解决，即使最先进的模型在端到端任务中也仅能达到40%的成功率，充分体现了其评估难度和现实价值。

使用方法

研究人员可通过Hugging Face平台直接获取预生成的完整数据集，或使用提供的代码库自定义生成测试样本。评估流程支持两种主要方式：基于单次推理的LLM基准测试和采用多步推理的智能体基准测试。系统提供了ReAct、Reflexion和ReWOO等多种基线模型实现，并支持精确匹配和LLM语义相似度判断两种评估标准。用户可通过配置文件和命令行参数灵活调整数据生成难度、模型选择及评估指标，确保实验的可重复性和结果的可比性。

背景与挑战

背景概述

随着大型语言模型在反应式任务中取得显著进展，人工智能代理的自主性问题逐渐成为研究焦点。PROBE基准测试由Fastino Inc团队于2025年创立，旨在突破传统指令响应模式，构建能够主动预测用户需求并自主解决问题的智能系统。该数据集通过模拟真实职场环境中的多文档场景，包含来自LinkedIn的真实人物画像及电子邮件、日历等多元数据，系统评估智能体在持续观察中预见瓶颈、自主决策的核心能力。

当前挑战

在解决领域问题层面，PROBE直面智能体从被动响应向主动干预转变的根本性挑战，要求模型具备跨文档语义理解、潜在问题推理及多步骤决策的复合能力。构建过程中面临三大难题：真实场景数据合成需平衡复杂度与可控性，多维度评估体系设计需兼顾检索精度与语义理解，以及生成数据与真实职场情境的语义对齐问题，这些因素共同导致当前最先进模型的端到端成功率仍不足40%。

常用场景

经典使用场景

在人工智能代理研究领域，PROBE基准测试被广泛用于评估大语言模型在真实职场环境中的前瞻性推理能力。该数据集通过模拟多文档场景（如电子邮件、日历和文档），要求智能体从持续观察中自主识别用户潜在需求并解决未明确指定的问题。典型应用包括测试模型在搜索相关信息、检测关键瓶颈及执行解决方案三个核心环节的表现，为构建具备自主问题解决能力的AI系统提供标准化评估框架。

解决学术问题

PROBE基准测试主要解决了智能体研究中反应式与前瞻性能力的量化评估难题。传统评估方法多局限于对显式指令的响应，而该数据集通过构建包含个性化数据存储和复杂瓶颈场景的测试环境，使研究者能够系统评估模型在信息检索、瓶颈识别与行动决策等维度的综合表现。其创新性在于揭示了当前最先进模型在端到端任务中仅达40%成功率的性能瓶颈，为突破被动响应范式、开发真正自主的AI系统提供了关键研究方向。

衍生相关工作

基于PROBE基准测试已衍生出多类经典研究工作，包括改进型智能体架构如ReAct、Reflexion和ReWOO等推理框架的优化。这些工作通过引入多步推理机制与动态反思策略，显著提升了模型在复杂场景下的瓶颈识别精度。同时，该数据集也催生了针对语义相似度评估的LLM评判方法，以及面向个性化数据检索的混合搜索算法，为构建下一代前瞻性AI系统奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集