explore-exploit-bench

github2026-02-06 更新2026-02-07 收录

下载链接：

https://github.com/mahdi-jfri/explore-exploit-bench

下载链接

链接失效反馈

官方服务：

资源简介：

该基准测试包含三个任务：Hill、Tree和MaxSAT。每个任务提供三种数据集配置：默认（包含主文本中讨论的实例）、困难（选择用于控制和分析任务难度的实例）和完整（包含50个实例的完整集合，用于全面评估）。数据集配置在初始化时指定，可以通过load_dataset函数加载。

This benchmark includes three tasks: Hill, Tree, and MaxSAT. Each task provides three dataset configurations: default (containing the instances discussed in the main text), hard (instances selected to control and analyze task difficulty), and full (a complete set of 50 instances for comprehensive evaluation). Dataset configurations are specified during initialization and can be loaded via the load_dataset function.

创建时间：

2026-01-24

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Failing to Explore: Language Models on Interactive Tasks
GitHub仓库地址: https://github.com/mahdi-jfri/explore-exploit-bench
相关论文: arXiv:2601.22345
官方网站: explore-exploit-bench.github.io

研究背景与目的

该数据集是一个用于评估语言模型在有限交互预算下探索交互环境能力的基准测试。研究发现，最先进的语言模型存在系统性探索不足和解决方案次优的问题，其性能通常显著低于简单的探索-利用启发式基线，并且随着预算增加，性能提升微弱。

任务与数据集构成

基准测试包含三个任务，每个任务提供三种数据集配置。

任务列表

Hill
Tree
MaxSAT

数据集配置

default: 包含论文正文中讨论的实例。
- Hill: 2个实例
- Tree: 3个实例
- MaxSAT: 4个实例
- 注意：每个默认数据集中的第一个实例（索引0）对应于论文中使用的示例。
hard: 为控制和分析任务难度而选择的实例。
full: 包含50个实例的完整集合，用于全面评估。

数据加载与使用

数据集通过 load_dataset 函数加载，需指定任务、实例数量和查询预算（num_queries=N）。 python ds = load_dataset(task="hill", num_instances=2, num_queries=N)

加载后，可以为特定实例创建交互环境： python env = ds.make_env(idx=0)

通过 env.handle_tool(payload) 与环境交互，载荷格式遵循 env.get_json_schema() 定义的模式。

使用方法

环境设置

安装依赖： shell pip install git+https://github.com/mahdi-jfri/explore-exploit-bench.git

或 shell git clone https://github.com/mahdi-jfri/explore-exploit-bench.git cd explore-exploit-bench pip install -r requirements-dev.txt

运行基线模型

仓库包含了论文中描述的 explore-exploit 基线。使用 run_single_rollout 函数运行完整回合。 python from explore_exploit_bench.datasets import load_dataset from explore_exploit_bench.runner import run_single_rollout from explore_exploit_bench.manual_algorithms.hill import HillExploreExploit

运行OpenAI模型

使用OpenAI模型需要有效的API密钥。 python from explore_exploit_bench.models import OpenAIModel model = OpenAIModel(model_name="gpt-5")

运行摘要方法

使用 run_single_rollout_summary 函数并指定 summary_period（整数 > 1）来应用论文中定义的摘要方法。 python rollout_result = run_single_rollout_summary( model, env, summary_period=N/s, max_input_tokens=10000 )

运行自定义模型

自定义模型需实现 explore_exploit_bench/types.py 中定义的 Model 协议。

干预措施研究

论文研究了两种轻量级干预措施：

将固定预算拆分为并行执行。
定期总结交互历史。

引用格式

bibtex @misc{jafariraviz2026failing, title={Failing to Explore: Language Models on Interactive Tasks}, author={Mahdi JafariRaviz and Keivan Rezaei and Arshia Soltani Moakhar and Zahra Sodagar and Yize Cheng and Soheil Feizi}, year={2026}, eprint={2601.22345}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2601.22345}, }

搜集汇总

数据集介绍

构建方式

在探索与利用基准数据集的构建过程中，研究者精心设计了三个参数化任务，即Hill、Tree与MaxSAT，以模拟不同复杂度的交互环境。每个任务均提供三种数据集配置：默认集包含论文中讨论的核心实例，难度集用于控制与分析任务挑战性，完整集则囊括全部50个实例以实现全面评估。数据集的初始化通过指定任务类型与实例数量完成，例如利用load_dataset函数加载特定任务的实例，随后通过make_env方法创建对应的交互环境。这种模块化构建方式使得数据集能够灵活适应不同研究需求，同时确保环境交互的规范性与可重复性。

特点

该数据集的核心特点在于其专注于语言模型在有限交互预算下的探索能力评估，通过三个可控难度的任务覆盖连续与离散环境。数据集提供了系统化的实例分级，从默认实例到完整集合，支持从初步验证到全面测试的多层次分析。交互环境采用统一的工具调用接口，遵循严格的JSON模式定义，确保了任务执行的一致性与可比性。此外，数据集内置了探索-利用启发式基线模型，并支持与OpenAI等外部模型的集成，为研究者提供了丰富的基准参照。其设计还融入了轻量级干预机制，如并行执行与历史摘要，以深入探究模型行为改进的潜在途径。

使用方法

使用该数据集时，首先通过pip或git克隆安装依赖包，并利用load_dataset函数加载所需任务与实例数量的数据集。创建特定实例的环境后，可通过env.handle_tool方法进行交互，遵循环境定义的JSON模式传递载荷。数据集提供了标准运行器run_single_rollout来执行完整回合，支持内置基线模型、OpenAI模型或自定义模型的集成。对于自定义模型，需实现Model协议中定义的生成与令牌计数方法。此外，数据集还支持摘要方法run_single_rollout_summary，通过设置摘要周期参数来模拟论文中的历史总结干预，从而评估模型在探索过程中的信息保留与利用效率。

背景与挑战

背景概述

在人工智能领域，探索与利用的权衡是强化学习和决策理论中的经典难题，尤其在交互式环境中，智能体需要在有限交互预算下有效分配资源以最大化累积奖励。explore-exploit-bench数据集由Mahdi JafariRaviz等研究人员于2026年创建，旨在系统评估语言模型在交互任务中的探索能力。该数据集包含Hill、Tree和MaxSAT三个参数化任务，覆盖连续与离散环境，通过可控的探索难度设计，核心研究问题聚焦于语言模型是否能在受限交互中有效探索未知状态并优化决策。这一基准测试为理解大模型在动态环境中的认知局限提供了实证基础，推动了交互式人工智能研究的发展。

当前挑战

explore-exploit-bench数据集旨在解决语言模型在交互任务中的探索能力评估问题，其挑战体现在多个层面。在领域问题方面，语言模型普遍表现出系统性探索不足和次优解倾向，性能常弱于简单的探索-利用启发式基线，且随着交互预算增加，模型性能提升微弱，揭示了当前大模型在动态决策中的固有缺陷。在构建过程中，研究人员需设计参数化任务以精确控制探索难度，确保环境从连续到离散的多样性，同时平衡实例的复杂性与可扩展性，这涉及大量算法验证和基准测试，以保障数据集的可靠性与泛化能力。

常用场景

经典使用场景

在探索与利用基准测试领域，explore-exploit-bench数据集被广泛应用于评估语言模型在有限交互预算下的探索能力。该数据集通过Hill、Tree和MaxSAT三个参数化任务，构建了连续与离散环境中的可控难度场景，为研究者提供了系统化的测试平台。经典使用场景包括加载默认或完整实例配置，利用环境交互接口执行单次或多次推演，从而量化模型在探索策略上的表现，并与基础启发式算法进行对比分析。

实际应用

在实际应用层面，explore-exploit-bench数据集为开发更鲁棒的交互式人工智能系统提供了评估框架。例如，在自动化问题求解、智能游戏代理以及动态环境决策等场景中，该数据集可用于测试模型在资源受限条件下的自适应能力。通过模拟真实世界中的探索与利用权衡，它帮助工程师识别模型在复杂交互中的薄弱环节，进而指导算法改进与系统设计，提升AI代理在开放域任务中的实用性与可靠性。

衍生相关工作

围绕该数据集，已衍生出一系列关注语言模型交互探索能力的经典研究工作。这些工作主要集中于分析模型在不同任务难度下的性能缩放规律，以及评估轻量级干预策略如并行预算分配与周期性历史摘要的有效性。相关研究进一步探讨了理论无增益条件下实践性能提升的悖论现象，并推动了针对模型探索机制的新型评估指标与训练方法的提出，为后续语言模型在交互式环境中的能力演进奠定了实证基础。

以上内容由遇见数据集搜集并总结生成