Plan-RewardBench
收藏Plan-RewardBench 数据集概述
数据集基本信息
- 数据集名称:Plan-RewardBench
- 核心描述:一个用于评估工具增强智能体中轨迹级奖励建模的综合性基准,专注于评估奖励模型和LLM评判器在复杂、多轮、工具集成推理场景中区分高质量智能体轨迹与似是而非的近似错误轨迹的能力。
- 论文:https://arxiv.org/abs/2604.08178
- HuggingFace数据集地址:https://huggingface.co/datasets/wyy1112/Plan-RewardBench
- GitHub仓库地址:https://github.com/wyy-1112/Plan-RewardBench
- 数据规模:包含1,171对轨迹比较对。
- 场景类别:涵盖4个场景家族。
- 会议信息:ACL 2026 Main。
- 代码许可证:Apache 2.0。
- 数据许可证:CC BY 4.0。
核心特性
- 轨迹级评估:评估整个交互序列,包括规划逻辑、工具使用模式、错误恢复和安全遵守。
- 困难负样本配对:通过最小编辑扰动实现细粒度区分。
- 统一的成对协议:包含A/B交换以控制偏差。
- 三种评估器类型:判别式奖励模型、生成式奖励模型和LLM-as-Judge。
基准结构
场景家族与数据划分
| 场景家族 | 数据划分 | 对数 | 描述 |
|---|---|---|---|
| 复杂规划 | planning_single_easy |
144 | 具有简单约束的单轮规划 |
planning_single_hard |
158 | 具有复杂/动态约束的单轮规划 | |
planning_multi_easy |
109 | 具有中等视野的多轮规划 | |
planning_multi_hard |
73 | 具有长视野(最多64轮)的多轮规划 | |
| 鲁棒错误恢复 | robust_recovery |
361 | 从工具错误、空结果、部分失败中恢复 |
| 安全拒绝 | safety_refusal |
51 | 区分安全拒绝与不安全顺从 |
| 工具无关性 | tool_irrelevance |
275 | 识别工具何时无关或不可用 |
数据格式
每个实例是一个JSON对象,结构如下: json { "query": "用户的任务描述", "tools": [{"type": "function", "function": {"name": "...", "description": "...", "parameters": {...}}}], "uuid": "唯一标识符", "chosen": {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}, ...]}, "reject": {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}, ...]} }
轨迹包含交织的消息,角色包括:user、assistant、tool_call和tool_response。
数据加载
-
从HuggingFace加载: python from datasets import load_dataset dataset = load_dataset("wyy1112/Plan-RewardBench")
注意:HuggingFace显示一个单一的
train划分——这只是完整评估基准的容器,不是训练集。Plan-RewardBench是一个仅用于评估的基准。 -
从本地JSONL文件加载: python import json with open("benchmark/planning_multi_easy.jsonl") as f: for line in f: item = json.loads(line)
主要结果
Plan-RewardBench上的成对准确率(%)。Avg是所有7个划分的宏平均。
| 模型 | 类型 | Multi-E | Multi-H | Sngl-E | Sngl-H | Robust | Safety | Irrel. | Avg |
|---|---|---|---|---|---|---|---|---|---|
| Qwen-Plus | LLM Judge | 68.35 | 68.77 | 84.55 | 74.68 | 73.75 | 55.88 | 63.73 | 69.96 |
| DeepSeek-V3.2-Exp | LLM Judge | 69.27 | 61.58 | 79.51 | 74.84 | 66.76 | 75.00 | 60.00 | 69.57 |
| Inf-ORM-Llama3.1-70B | Scalar RM | 70.31 | 65.03 | 79.86 | 74.05 | 69.78 | 58.53 | 66.91 | 69.21 |
| GPT-5 | LLM Judge | 63.99 | 45.82 | 83.85 | 62.18 | 69.39 | 84.80 | 69.73 | 68.54 |
| Gemini-3-Flash | LLM Judge | 66.36 | 47.53 | 81.08 | 67.25 | 67.31 | 78.43 | 75.55 | 69.07 |
| RRM-32B | Generative RM | 68.45 | 62.10 | 75.22 | 70.80 | 67.15 | 60.30 | 61.15 | 66.45 |
| Skywork-Reward-V2 (8B) | Scalar RM | 73.85 | 61.44 | 69.79 | 72.15 | 65.10 | 53.92 | 64.91 | 65.88 |
关键发现
- 没有任何一个评估器在所有类别中占主导地位。整体最佳模型(Qwen-Plus,69.96%)在安全性(GPT-5,84.80%)或工具无关性(Gemini-3-Flash,75.55%)上并非最佳。
- 多轮困难规划仍然是最具挑战性的划分,即使是最强的模型也难以超过70%。
- 标量奖励模型在显式信号(例如错误恢复)上具有竞争力,但缺乏对隐式规划逻辑的推理深度。
- 上下文崩溃发生在超过32K令牌时,此时多个评估器的表现低于随机水平。
仓库结构
Plan-RewardBench/ ├── README.md ├── LICENSE ├── .gitignore ├── benchmark/ # 基准数据(1,171个成对实例) │ ├── planning_multi_easy.jsonl # 109对 │ ├── planning_multi_hard.jsonl # 73对 │ ├── planning_single_easy.jsonl # 144对 │ ├── planning_single_hard.jsonl # 158对 │ ├── robust_recovery.jsonl # 361对 │ ├── safety_refusal.jsonl # 51对 │ └── tool_irrelevance.jsonl # 275对 └── eval/ # 评估脚本 ├── evaluate_benchmark_final.py # 主评估脚本 ├── config.yaml # 模型配置 ├── run_eval.sh # 示例运行命令 └── requirements.txt # Python依赖
引用
bibtex @article{wang2026aligning, title={Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling}, author={Wang, Jiaxuan and Hu, Yulan and Yang, Wenjin and Pan, Zheng and Li, Xin and Guo, Lan-Zhe}, journal={arXiv preprint arXiv:2604.08178}, year={2026} }
联系方式
- 邮箱:jiaxuanwang@smail.nju.edu.cn
- GitHub Issues:https://github.com/wyy-1112/Plan-RewardBench/issues




