explore-exploit-bench
收藏数据集概述
数据集基本信息
- 数据集名称: Failing to Explore: Language Models on Interactive Tasks
- GitHub仓库地址: https://github.com/mahdi-jfri/explore-exploit-bench
- 相关论文: arXiv:2601.22345
- 官方网站: explore-exploit-bench.github.io
研究背景与目的
该数据集是一个用于评估语言模型在有限交互预算下探索交互环境能力的基准测试。研究发现,最先进的语言模型存在系统性探索不足和解决方案次优的问题,其性能通常显著低于简单的探索-利用启发式基线,并且随着预算增加,性能提升微弱。
任务与数据集构成
基准测试包含三个任务,每个任务提供三种数据集配置。
任务列表
- Hill
- Tree
- MaxSAT
数据集配置
- default: 包含论文正文中讨论的实例。
- Hill: 2个实例
- Tree: 3个实例
- MaxSAT: 4个实例
- 注意:每个默认数据集中的第一个实例(索引0)对应于论文中使用的示例。
- hard: 为控制和分析任务难度而选择的实例。
- full: 包含50个实例的完整集合,用于全面评估。
数据加载与使用
数据集通过 load_dataset 函数加载,需指定任务、实例数量和查询预算(num_queries=N)。
python
ds = load_dataset(task="hill", num_instances=2, num_queries=N)
加载后,可以为特定实例创建交互环境: python env = ds.make_env(idx=0)
通过 env.handle_tool(payload) 与环境交互,载荷格式遵循 env.get_json_schema() 定义的模式。
使用方法
环境设置
安装依赖: shell pip install git+https://github.com/mahdi-jfri/explore-exploit-bench.git
或 shell git clone https://github.com/mahdi-jfri/explore-exploit-bench.git cd explore-exploit-bench pip install -r requirements-dev.txt
运行基线模型
仓库包含了论文中描述的 explore-exploit 基线。使用 run_single_rollout 函数运行完整回合。
python
from explore_exploit_bench.datasets import load_dataset
from explore_exploit_bench.runner import run_single_rollout
from explore_exploit_bench.manual_algorithms.hill import HillExploreExploit
运行OpenAI模型
使用OpenAI模型需要有效的API密钥。 python from explore_exploit_bench.models import OpenAIModel model = OpenAIModel(model_name="gpt-5")
运行摘要方法
使用 run_single_rollout_summary 函数并指定 summary_period(整数 > 1)来应用论文中定义的摘要方法。
python
rollout_result = run_single_rollout_summary(
model, env, summary_period=N/s, max_input_tokens=10000
)
运行自定义模型
自定义模型需实现 explore_exploit_bench/types.py 中定义的 Model 协议。
干预措施研究
论文研究了两种轻量级干预措施:
- 将固定预算拆分为并行执行。
- 定期总结交互历史。
引用格式
bibtex @misc{jafariraviz2026failing, title={Failing to Explore: Language Models on Interactive Tasks}, author={Mahdi JafariRaviz and Keivan Rezaei and Arshia Soltani Moakhar and Zahra Sodagar and Yize Cheng and Soheil Feizi}, year={2026}, eprint={2601.22345}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2601.22345}, }




