SRM (Step-wise, Multi-dimensional Reward Model)

Name: SRM (Step-wise, Multi-dimensional Reward Model)
Creator: 浙江大学, 中国杭州
Published: 2025-03-24 21:30:47
License: 暂无描述

arXiv2025-03-24 更新2025-03-28 收录

下载链接：

https://github.com/Galery23/Similar-v1

下载链接

链接失效反馈

官方服务：

资源简介：

SRM数据集是虚拟代理人领域中首个针对逐步、多维奖励模型训练和评估的基准。该数据集由两部分组成：用于训练的SRMTrain和用于评估的SRMEval。SRMTrain包含78,000个自动注释的数据点，而SRMEval包含32,000个经过精心挑选的测试数据点。数据集涵盖了Web、Linux、Windows和Android等多个平台，通过自动收集和注释的方式，为研究虚拟代理人奖励模型提供了丰富的资源。

The SRM dataset is the first benchmark for step-by-step and multi-dimensional reward model training and evaluation in the field of virtual agents. This dataset consists of two parts: SRMTrain for training and SRMEval for evaluation. SRMTrain contains 78,000 automatically annotated data points, while SRMEval includes 32,000 carefully curated test data points. The dataset covers multiple platforms including Web, Linux, Windows, and Android, and provides abundant resources for research on virtual agent reward models through automatic collection and annotation.

提供机构：

浙江大学, 中国杭州

创建时间：

2025-03-24

搜集汇总

数据集介绍

构建方式

SRM数据集的构建采用了创新的MCTS-P算法，通过自动化方式在Web、Android、Linux和Windows四个平台上收集并标注了11万条分步执行数据。研究团队首先定义了评估智能体行为的五个关键维度（帮助性、成功概率、效率、任务相关性和连贯性），随后利用蒙特卡洛树搜索的改进算法模拟智能体轨迹，自动生成多维度评分。该过程通过GPT-4o进行任务相关性和连贯性的辅助评估，最终形成包含SRMTrain（78k）和SRMEval（32k）的双组件基准测试集。

使用方法

该数据集主要支持两种应用范式：在训练阶段，研究者可将SRMTrain作为奖励模型的训练集，通过Triple-M策略整合多维度评分，为智能体提供细粒度的强化学习信号；在评估阶段，SRMEval用于测试奖励模型在分步决策中的判别能力，要求模型从候选动作对中选择更优项。具体使用时，建议结合MCTS等搜索算法实现推理时扩展，通过实时评估动作质量来优化智能体轨迹。数据集配套的评估指标包含维度专项准确率和轨迹级综合评价，支持对模型能力的全面检验。

背景与挑战

背景概述

SRM（Step-wise, Multi-dimensional Reward Model）数据集由浙江大学与蚂蚁集团等机构的研究团队于2025年提出，旨在解决通用虚拟代理（GVAs）训练中过程监督的细粒度评估问题。该数据集通过蒙特卡洛树搜索改进算法（MCTS-P）自动标注了11万条跨平台（Web/Android/Linux/Windows）的逐步执行轨迹，定义了帮助性、成功概率、效率等五个评估维度。作为首个面向虚拟代理奖励模型的基准，SRM突破了传统结果监督的局限，为多模态大语言模型驱动的智能体提供了过程优化的量化标准，推动了自动标注与多维度评估技术在交互式AI领域的发展。

当前挑战

SRM数据集面临的核心挑战体现在两个方面：在领域问题层面，需解决虚拟代理训练中过程监督信号缺失的难题，传统基于任务结果的粗粒度评估无法定位执行轨迹中的具体错误步骤；在构建层面，跨平台轨迹的自动标注需要平衡MCTS算法的探索-利用效率，且五维度评分体系需确保各维度既独立又互补。具体挑战包括：1）多维度评估的量化标准设计，如效率维度需准确计算步骤缩减带来的收益；2）自动化标注的可靠性验证，特别是在Android等动态环境中长轨迹的稳定性；3）多模态数据（图像/文本）的统一表征，这对评估GUI操作的相关性与连贯性至关重要。

常用场景

经典使用场景

SRM数据集在虚拟代理训练和推理过程中，通过提供细粒度的、多维度的评估信号，优化代理的行为决策。其经典使用场景包括在强化学习框架中作为奖励模型，指导代理逐步优化其行为，以及在推理阶段与蒙特卡洛树搜索（MCTS）等算法结合，筛选最优动作路径。

解决学术问题

SRM数据集解决了当前虚拟代理训练中依赖结果监督和人工标注的局限性问题。通过自动化的多维评估，该数据集能够提供中间步骤的细粒度反馈，从而帮助代理更高效地学习和推理。其意义在于显著降低了人工标注成本，同时提升了代理在复杂任务中的表现。

实际应用

在实际应用中，SRM数据集被广泛用于训练和评估虚拟代理，特别是在多平台任务中，如网页导航、移动设备操作和操作系统交互。其多维评估能力使得代理能够在真实环境中更精准地执行任务，例如在电子商务平台上完成商品搜索和购买流程。

数据集最近研究