Plan-RewardBench

github2026-04-18 更新2026-04-19 收录

下载链接：

https://github.com/wyy-1112/Plan-RewardBench

下载链接

链接失效反馈

官方服务：

资源简介：

Plan-RewardBench是一个轨迹级偏好基准，旨在评估奖励模型和LLM法官在复杂、多轮、工具集成推理场景中区分高质量代理轨迹与近似错误轨迹的能力。该基准包含1,171对轨迹比较，覆盖4种场景家族，通过最小编辑扰动生成硬负配对，支持三种评估器类型：判别性RM、生成性RM和LLM-as-Judge。

Plan-RewardBench is a trajectory-level preference benchmark designed to evaluate reward models and LLM judges on their ability to distinguish high-quality agent trajectories from approximately erroneous ones in complex, multi-turn, tool-integrated reasoning scenarios. This benchmark contains 1,171 trajectory comparison pairs covering 4 scenario families, generates hard negative pairs via minimal edit perturbations, and supports three types of evaluators: discriminative RM, generative RM, and LLM-as-Judge.

创建时间：

2026-04-18

原始信息汇总

Plan-RewardBench 数据集概述

数据集基本信息

数据集名称：Plan-RewardBench
核心描述：一个用于评估工具增强智能体中轨迹级奖励建模的综合性基准，专注于评估奖励模型和LLM评判器在复杂、多轮、工具集成推理场景中区分高质量智能体轨迹与似是而非的近似错误轨迹的能力。
论文：https://arxiv.org/abs/2604.08178
HuggingFace数据集地址：https://huggingface.co/datasets/wyy1112/Plan-RewardBench
GitHub仓库地址：https://github.com/wyy-1112/Plan-RewardBench
数据规模：包含1,171对轨迹比较对。
场景类别：涵盖4个场景家族。
会议信息：ACL 2026 Main。
代码许可证：Apache 2.0。
数据许可证：CC BY 4.0。

核心特性

轨迹级评估：评估整个交互序列，包括规划逻辑、工具使用模式、错误恢复和安全遵守。
困难负样本配对：通过最小编辑扰动实现细粒度区分。
统一的成对协议：包含A/B交换以控制偏差。
三种评估器类型：判别式奖励模型、生成式奖励模型和LLM-as-Judge。

基准结构

场景家族与数据划分

场景家族	数据划分	对数	描述
复杂规划	`planning_single_easy`	144	具有简单约束的单轮规划
	`planning_single_hard`	158	具有复杂/动态约束的单轮规划
	`planning_multi_easy`	109	具有中等视野的多轮规划
	`planning_multi_hard`	73	具有长视野（最多64轮）的多轮规划
鲁棒错误恢复	`robust_recovery`	361	从工具错误、空结果、部分失败中恢复
安全拒绝	`safety_refusal`	51	区分安全拒绝与不安全顺从
工具无关性	`tool_irrelevance`	275	识别工具何时无关或不可用

数据格式

每个实例是一个JSON对象，结构如下： json { "query": "用户的任务描述", "tools": [{"type": "function", "function": {"name": "...", "description": "...", "parameters": {...}}}], "uuid": "唯一标识符", "chosen": {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}, ...]}, "reject": {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}, ...]} }

轨迹包含交织的消息，角色包括：user、assistant、tool_call和tool_response。

数据加载

从HuggingFace加载： python from datasets import load_dataset dataset = load_dataset("wyy1112/Plan-RewardBench")

注意：HuggingFace显示一个单一的train划分——这只是完整评估基准的容器，不是训练集。Plan-RewardBench是一个仅用于评估的基准。
从本地JSONL文件加载： python import json with open("benchmark/planning_multi_easy.jsonl") as f: for line in f: item = json.loads(line)

主要结果

Plan-RewardBench上的成对准确率（%）。Avg是所有7个划分的宏平均。

模型	类型	Multi-E	Multi-H	Sngl-E	Sngl-H	Robust	Safety	Irrel.	Avg
Qwen-Plus	LLM Judge	68.35	68.77	84.55	74.68	73.75	55.88	63.73	69.96
DeepSeek-V3.2-Exp	LLM Judge	69.27	61.58	79.51	74.84	66.76	75.00	60.00	69.57
Inf-ORM-Llama3.1-70B	Scalar RM	70.31	65.03	79.86	74.05	69.78	58.53	66.91	69.21
GPT-5	LLM Judge	63.99	45.82	83.85	62.18	69.39	84.80	69.73	68.54
Gemini-3-Flash	LLM Judge	66.36	47.53	81.08	67.25	67.31	78.43	75.55	69.07
RRM-32B	Generative RM	68.45	62.10	75.22	70.80	67.15	60.30	61.15	66.45
Skywork-Reward-V2 (8B)	Scalar RM	73.85	61.44	69.79	72.15	65.10	53.92	64.91	65.88

关键发现

没有任何一个评估器在所有类别中占主导地位。整体最佳模型（Qwen-Plus，69.96%）在安全性（GPT-5，84.80%）或工具无关性（Gemini-3-Flash，75.55%）上并非最佳。
多轮困难规划仍然是最具挑战性的划分，即使是最强的模型也难以超过70%。
标量奖励模型在显式信号（例如错误恢复）上具有竞争力，但缺乏对隐式规划逻辑的推理深度。
上下文崩溃发生在超过32K令牌时，此时多个评估器的表现低于随机水平。

仓库结构

Plan-RewardBench/ ├── README.md ├── LICENSE ├── .gitignore ├── benchmark/ # 基准数据（1,171个成对实例） │ ├── planning_multi_easy.jsonl # 109对 │ ├── planning_multi_hard.jsonl # 73对 │ ├── planning_single_easy.jsonl # 144对 │ ├── planning_single_hard.jsonl # 158对 │ ├── robust_recovery.jsonl # 361对 │ ├── safety_refusal.jsonl # 51对 │ └── tool_irrelevance.jsonl # 275对 └── eval/ # 评估脚本 ├── evaluate_benchmark_final.py # 主评估脚本 ├── config.yaml # 模型配置 ├── run_eval.sh # 示例运行命令 └── requirements.txt # Python依赖

引用

bibtex @article{wang2026aligning, title={Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling}, author={Wang, Jiaxuan and Hu, Yulan and Yang, Wenjin and Pan, Zheng and Li, Xin and Guo, Lan-Zhe}, journal={arXiv preprint arXiv:2604.08178}, year={2026} }

联系方式

邮箱：jiaxuanwang@smail.nju.edu.cn
GitHub Issues：https://github.com/wyy-1112/Plan-RewardBench/issues

搜集汇总

数据集介绍

构建方式

在智能体与工具交互的复杂场景中，Plan-RewardBench的构建聚焦于轨迹层面的偏好评估。该数据集通过精心设计的四个场景家族——复杂规划、鲁棒错误恢复、安全拒绝与工具无关性，覆盖了多样化的智能体能力维度。其核心构建策略在于采用最小编辑扰动技术生成硬负样本对，即对高质量轨迹进行细微修改以产生看似合理但存在缺陷的替代轨迹，从而形成1,171对精细比较。这种构建方式确保了评估任务能够深入检验模型对规划逻辑、工具使用模式及错误恢复等轨迹级属性的判别能力。

特点

Plan-RewardBench的显著特点在于其评估的深度与广度。数据集包含七个评估划分，全面涵盖了从单步简单规划到长达64轮的多步复杂规划等多种挑战。每个数据实例均以统一的成对协议呈现，包含用户查询、可用工具集以及经过人工标注的优选与拒绝两条完整交互轨迹，轨迹中交织着用户、助手、工具调用及工具响应等多种角色消息。这种结构设计不仅支持对判别式奖励模型、生成式奖励模型以及大语言模型即评委三种评估者类型的统一测评，还通过A/B交换机制有效控制了评估过程中的潜在偏差。

使用方法

作为专为评估设计的基准，Plan-RewardBench的使用流程清晰高效。研究者可通过Hugging Face平台或本地JSONL文件便捷加载数据集。评估框架支持灵活的配置，允许用户通过编辑YAML配置文件集成自定义模型。运行评估时，脚本支持对大语言模型评委、基于本地GPU的判别式奖励模型以及通过vLLM服务的生成式奖励模型进行自动化测试。用户只需指定模型名称、数据目录与输出路径，即可并行计算模型在各个场景划分上的成对准确率，从而系统性地衡量不同奖励建模方法在复杂、多轮、工具集成推理任务中的轨迹级判别性能。

背景与挑战

背景概述

在人工智能领域，特别是增强语言模型与工具交互的智能体研究中，如何准确评估智能体在复杂、多轮次任务中的整体表现，一直是亟待解决的核心问题。Plan-RewardBench数据集应运而生，由南京大学等机构的研究团队于2026年创建，并计划在ACL 2026主会议上发表。该数据集旨在为轨迹级别的奖励建模提供一个全面的评估基准，其核心研究问题聚焦于如何有效区分高质量智能体轨迹与看似合理但存在细微缺陷的“近似失误”轨迹。通过涵盖复杂规划、鲁棒错误恢复、安全拒绝和工具无关性四大场景家族，共计1,171对轨迹比较，该数据集推动了智能体评估从单轮工具调用正确性向整体轨迹质量评估的范式转变，对提升智能体的规划逻辑、工具使用模式和安全性具有重要影响力。

当前挑战

Plan-RewardBench所针对的领域挑战在于，现有评估基准多局限于单轮或原子性工具调用，难以全面衡量智能体在长序列、多模态交互中的综合表现，特别是对隐含的规划逻辑和错误恢复能力的判别存在不足。在数据集构建过程中，研究人员面临多重挑战：首先，需要设计具有细粒度差异的“硬负样本”，通过最小编辑扰动生成看似合理但存在关键缺陷的轨迹，这对数据生成的精确性和多样性提出了极高要求；其次，构建覆盖不同能力维度的多样化场景家族，并确保多轮交互（如长达64轮）的连贯性与真实性，涉及复杂的任务建模与数据标注；此外，统一配对协议的设计与偏差控制，以及处理超出32K令牌的上下文崩溃问题，均为构建过程带来了显著的技术难题。

常用场景

经典使用场景

在智能体与工具交互的复杂场景中，Plan-RewardBench作为轨迹级偏好基准，其经典应用聚焦于评估奖励模型与大型语言模型作为评判者的鉴别能力。该数据集通过精心构建的配对轨迹对比，模拟了多轮规划、错误恢复、安全拒绝及工具无关性等核心任务，为研究者提供了系统化衡量智能体在长序列决策中表现优劣的标准化平台。其硬负样本配对机制，通过最小编辑扰动生成近似错误轨迹，迫使模型深入理解规划逻辑与工具使用的细微差别，从而推动轨迹级评估从单一正确性判断迈向综合性能分析。

衍生相关工作

围绕Plan-RewardBench，研究社区已衍生出一系列经典工作，主要集中在轨迹级奖励建模与评估方法的创新上。例如，基于该基准的比较研究揭示了不同模型家族（如判别式奖励模型、生成式奖励模型与LLM-as-Judge）在各类场景下的性能差异，催生了针对长上下文建模与隐式规划推理的专用架构探索。同时，其硬负样本构建策略启发了后续数据增强技术，用于生成更具挑战性的对抗性轨迹。这些工作共同深化了对智能体对齐机制的理解，并为下一代奖励模型的设计提供了实证基础与方向指引。

数据集最近研究