five

Plan-RewardBench

收藏
github2026-04-18 更新2026-04-19 收录
下载链接:
https://github.com/wyy-1112/Plan-RewardBench
下载链接
链接失效反馈
官方服务:
资源简介:
Plan-RewardBench是一个轨迹级偏好基准,旨在评估奖励模型和LLM法官在复杂、多轮、工具集成推理场景中区分高质量代理轨迹与近似错误轨迹的能力。该基准包含1,171对轨迹比较,覆盖4种场景家族,通过最小编辑扰动生成硬负配对,支持三种评估器类型:判别性RM、生成性RM和LLM-as-Judge。

Plan-RewardBench is a trajectory-level preference benchmark designed to evaluate reward models and LLM judges on their ability to distinguish high-quality agent trajectories from approximately erroneous ones in complex, multi-turn, tool-integrated reasoning scenarios. This benchmark contains 1,171 trajectory comparison pairs covering 4 scenario families, generates hard negative pairs via minimal edit perturbations, and supports three types of evaluators: discriminative RM, generative RM, and LLM-as-Judge.
创建时间:
2026-04-18
原始信息汇总

Plan-RewardBench 数据集概述

数据集基本信息

  • 数据集名称:Plan-RewardBench
  • 核心描述:一个用于评估工具增强智能体中轨迹级奖励建模的综合性基准,专注于评估奖励模型和LLM评判器在复杂、多轮、工具集成推理场景中区分高质量智能体轨迹与似是而非的近似错误轨迹的能力。
  • 论文:https://arxiv.org/abs/2604.08178
  • HuggingFace数据集地址:https://huggingface.co/datasets/wyy1112/Plan-RewardBench
  • GitHub仓库地址:https://github.com/wyy-1112/Plan-RewardBench
  • 数据规模:包含1,171对轨迹比较对。
  • 场景类别:涵盖4个场景家族。
  • 会议信息:ACL 2026 Main。
  • 代码许可证:Apache 2.0。
  • 数据许可证:CC BY 4.0。

核心特性

  • 轨迹级评估:评估整个交互序列,包括规划逻辑、工具使用模式、错误恢复和安全遵守。
  • 困难负样本配对:通过最小编辑扰动实现细粒度区分。
  • 统一的成对协议:包含A/B交换以控制偏差。
  • 三种评估器类型:判别式奖励模型、生成式奖励模型和LLM-as-Judge。

基准结构

场景家族与数据划分

场景家族 数据划分 对数 描述
复杂规划 planning_single_easy 144 具有简单约束的单轮规划
planning_single_hard 158 具有复杂/动态约束的单轮规划
planning_multi_easy 109 具有中等视野的多轮规划
planning_multi_hard 73 具有长视野(最多64轮)的多轮规划
鲁棒错误恢复 robust_recovery 361 从工具错误、空结果、部分失败中恢复
安全拒绝 safety_refusal 51 区分安全拒绝与不安全顺从
工具无关性 tool_irrelevance 275 识别工具何时无关或不可用

数据格式

每个实例是一个JSON对象,结构如下: json { "query": "用户的任务描述", "tools": [{"type": "function", "function": {"name": "...", "description": "...", "parameters": {...}}}], "uuid": "唯一标识符", "chosen": {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}, ...]}, "reject": {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}, ...]} }

轨迹包含交织的消息,角色包括:userassistanttool_calltool_response

数据加载

  • 从HuggingFace加载: python from datasets import load_dataset dataset = load_dataset("wyy1112/Plan-RewardBench")

    注意:HuggingFace显示一个单一的train划分——这只是完整评估基准的容器,不是训练集。Plan-RewardBench是一个仅用于评估的基准。

  • 从本地JSONL文件加载: python import json with open("benchmark/planning_multi_easy.jsonl") as f: for line in f: item = json.loads(line)

主要结果

Plan-RewardBench上的成对准确率(%)。Avg是所有7个划分的宏平均。

模型 类型 Multi-E Multi-H Sngl-E Sngl-H Robust Safety Irrel. Avg
Qwen-Plus LLM Judge 68.35 68.77 84.55 74.68 73.75 55.88 63.73 69.96
DeepSeek-V3.2-Exp LLM Judge 69.27 61.58 79.51 74.84 66.76 75.00 60.00 69.57
Inf-ORM-Llama3.1-70B Scalar RM 70.31 65.03 79.86 74.05 69.78 58.53 66.91 69.21
GPT-5 LLM Judge 63.99 45.82 83.85 62.18 69.39 84.80 69.73 68.54
Gemini-3-Flash LLM Judge 66.36 47.53 81.08 67.25 67.31 78.43 75.55 69.07
RRM-32B Generative RM 68.45 62.10 75.22 70.80 67.15 60.30 61.15 66.45
Skywork-Reward-V2 (8B) Scalar RM 73.85 61.44 69.79 72.15 65.10 53.92 64.91 65.88

关键发现

  1. 没有任何一个评估器在所有类别中占主导地位。整体最佳模型(Qwen-Plus,69.96%)在安全性(GPT-5,84.80%)或工具无关性(Gemini-3-Flash,75.55%)上并非最佳。
  2. 多轮困难规划仍然是最具挑战性的划分,即使是最强的模型也难以超过70%。
  3. 标量奖励模型在显式信号(例如错误恢复)上具有竞争力,但缺乏对隐式规划逻辑的推理深度。
  4. 上下文崩溃发生在超过32K令牌时,此时多个评估器的表现低于随机水平。

仓库结构

Plan-RewardBench/ ├── README.md ├── LICENSE ├── .gitignore ├── benchmark/ # 基准数据(1,171个成对实例) │ ├── planning_multi_easy.jsonl # 109对 │ ├── planning_multi_hard.jsonl # 73对 │ ├── planning_single_easy.jsonl # 144对 │ ├── planning_single_hard.jsonl # 158对 │ ├── robust_recovery.jsonl # 361对 │ ├── safety_refusal.jsonl # 51对 │ └── tool_irrelevance.jsonl # 275对 └── eval/ # 评估脚本 ├── evaluate_benchmark_final.py # 主评估脚本 ├── config.yaml # 模型配置 ├── run_eval.sh # 示例运行命令 └── requirements.txt # Python依赖

引用

bibtex @article{wang2026aligning, title={Aligning Agents via Planning: A Benchmark for Trajectory-Level Reward Modeling}, author={Wang, Jiaxuan and Hu, Yulan and Yang, Wenjin and Pan, Zheng and Li, Xin and Guo, Lan-Zhe}, journal={arXiv preprint arXiv:2604.08178}, year={2026} }

联系方式

  • 邮箱:jiaxuanwang@smail.nju.edu.cn
  • GitHub Issues:https://github.com/wyy-1112/Plan-RewardBench/issues
搜集汇总
数据集介绍
main_image_url
构建方式
在智能体与工具交互的复杂场景中,Plan-RewardBench的构建聚焦于轨迹层面的偏好评估。该数据集通过精心设计的四个场景家族——复杂规划、鲁棒错误恢复、安全拒绝与工具无关性,覆盖了多样化的智能体能力维度。其核心构建策略在于采用最小编辑扰动技术生成硬负样本对,即对高质量轨迹进行细微修改以产生看似合理但存在缺陷的替代轨迹,从而形成1,171对精细比较。这种构建方式确保了评估任务能够深入检验模型对规划逻辑、工具使用模式及错误恢复等轨迹级属性的判别能力。
特点
Plan-RewardBench的显著特点在于其评估的深度与广度。数据集包含七个评估划分,全面涵盖了从单步简单规划到长达64轮的多步复杂规划等多种挑战。每个数据实例均以统一的成对协议呈现,包含用户查询、可用工具集以及经过人工标注的优选与拒绝两条完整交互轨迹,轨迹中交织着用户、助手、工具调用及工具响应等多种角色消息。这种结构设计不仅支持对判别式奖励模型、生成式奖励模型以及大语言模型即评委三种评估者类型的统一测评,还通过A/B交换机制有效控制了评估过程中的潜在偏差。
使用方法
作为专为评估设计的基准,Plan-RewardBench的使用流程清晰高效。研究者可通过Hugging Face平台或本地JSONL文件便捷加载数据集。评估框架支持灵活的配置,允许用户通过编辑YAML配置文件集成自定义模型。运行评估时,脚本支持对大语言模型评委、基于本地GPU的判别式奖励模型以及通过vLLM服务的生成式奖励模型进行自动化测试。用户只需指定模型名称、数据目录与输出路径,即可并行计算模型在各个场景划分上的成对准确率,从而系统性地衡量不同奖励建模方法在复杂、多轮、工具集成推理任务中的轨迹级判别性能。
背景与挑战
背景概述
在人工智能领域,特别是增强语言模型与工具交互的智能体研究中,如何准确评估智能体在复杂、多轮次任务中的整体表现,一直是亟待解决的核心问题。Plan-RewardBench数据集应运而生,由南京大学等机构的研究团队于2026年创建,并计划在ACL 2026主会议上发表。该数据集旨在为轨迹级别的奖励建模提供一个全面的评估基准,其核心研究问题聚焦于如何有效区分高质量智能体轨迹与看似合理但存在细微缺陷的“近似失误”轨迹。通过涵盖复杂规划、鲁棒错误恢复、安全拒绝和工具无关性四大场景家族,共计1,171对轨迹比较,该数据集推动了智能体评估从单轮工具调用正确性向整体轨迹质量评估的范式转变,对提升智能体的规划逻辑、工具使用模式和安全性具有重要影响力。
当前挑战
Plan-RewardBench所针对的领域挑战在于,现有评估基准多局限于单轮或原子性工具调用,难以全面衡量智能体在长序列、多模态交互中的综合表现,特别是对隐含的规划逻辑和错误恢复能力的判别存在不足。在数据集构建过程中,研究人员面临多重挑战:首先,需要设计具有细粒度差异的“硬负样本”,通过最小编辑扰动生成看似合理但存在关键缺陷的轨迹,这对数据生成的精确性和多样性提出了极高要求;其次,构建覆盖不同能力维度的多样化场景家族,并确保多轮交互(如长达64轮)的连贯性与真实性,涉及复杂的任务建模与数据标注;此外,统一配对协议的设计与偏差控制,以及处理超出32K令牌的上下文崩溃问题,均为构建过程带来了显著的技术难题。
常用场景
经典使用场景
在智能体与工具交互的复杂场景中,Plan-RewardBench作为轨迹级偏好基准,其经典应用聚焦于评估奖励模型与大型语言模型作为评判者的鉴别能力。该数据集通过精心构建的配对轨迹对比,模拟了多轮规划、错误恢复、安全拒绝及工具无关性等核心任务,为研究者提供了系统化衡量智能体在长序列决策中表现优劣的标准化平台。其硬负样本配对机制,通过最小编辑扰动生成近似错误轨迹,迫使模型深入理解规划逻辑与工具使用的细微差别,从而推动轨迹级评估从单一正确性判断迈向综合性能分析。
衍生相关工作
围绕Plan-RewardBench,研究社区已衍生出一系列经典工作,主要集中在轨迹级奖励建模与评估方法的创新上。例如,基于该基准的比较研究揭示了不同模型家族(如判别式奖励模型、生成式奖励模型与LLM-as-Judge)在各类场景下的性能差异,催生了针对长上下文建模与隐式规划推理的专用架构探索。同时,其硬负样本构建策略启发了后续数据增强技术,用于生成更具挑战性的对抗性轨迹。这些工作共同深化了对智能体对齐机制的理解,并为下一代奖励模型的设计提供了实证基础与方向指引。
数据集最近研究
最新研究方向
在具身智能与工具增强代理领域,轨迹级奖励建模正成为评估智能体长期规划与决策能力的关键前沿。Plan-RewardBench作为首个专注于多轮、复杂工具集成场景的轨迹级偏好基准,推动了研究从单步工具调用正确性向整体交互序列质量的范式转移。当前研究热点集中于探索生成式奖励模型与判别式奖励模型在隐式逻辑推理与显式错误恢复等不同场景下的性能边界,同时结合大语言模型作为评判者的方法,以应对长序列规划中出现的上下文崩溃等挑战。该数据集的发布不仅为智能体对齐提供了细粒度评估工具,也促进了多模态、安全可靠且具备鲁棒性的自主智能系统的发展,相关成果已入选ACL 2026主会议,彰显了其在自然语言处理与人工智能交叉领域的重要影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作