OPENRM
收藏arXiv2025-10-29 更新2025-10-30 收录
下载链接:
https://arxiv.org/abs/2510.24636v1
下载链接
链接失效反馈官方服务:
资源简介:
OPENRM是一个利用外部工具对知识密集型长文本进行评价的工具增强型奖励模型。该模型通过调用外部工具来收集相关证据,对开放式的长文本回答进行系统性的评价。OPENRM在超过27K个合成的成对示例上进行了训练,这些示例是通过可控的数据合成框架生成的。训练目标同时监督中间工具的使用和最终结果的准确性,激励奖励模型学习基于证据的有效判断策略。在三个新收集的数据集和两个广泛使用的基准上进行的广泛实验表明,OPENRM明显优于现有的奖励模型。
OPENRM is a tool-augmented reward model that leverages external tools to evaluate knowledge-intensive long texts. This model collects relevant evidence by invoking external tools to conduct systematic evaluations of open-ended long-text answers. OPENRM is trained on over 27K synthetic paired examples, which are generated via a controllable data synthesis framework. The training objective supervises both the usage of intermediate tools and the accuracy of final outputs, incentivizing the reward model to learn evidence-based effective judgment strategies. Extensive experiments conducted on three newly collected datasets and two widely used benchmarks demonstrate that OPENRM significantly outperforms existing reward models.
提供机构:
荷兰莱顿大学、中国山东大学、中国清华大学
创建时间:
2025-10-29
搜集汇总
数据集介绍

构建方式
在长文本奖励建模领域,数据稀缺是核心挑战。OPENRM通过可控数据合成框架构建训练数据,首先从领域文档中采样并生成目标感知查询,确保问题与源内容紧密关联。随后利用同一大型语言模型在不同输入条件下生成偏好对:正例响应基于查询和参考文档生成,保证事实准确性;负例响应仅基于查询生成,通常产生不完整或存在幻觉的内容。这种对比设置创造了明确的质量差异,最终在维基百科、科学研究和医学三个代表性场景中合成了超过27,000个高质量训练实例。
特点
OPENRM作为工具增强的长文本奖励模型,其核心特征在于融合外部工具进行证据检索与推理。该模型能够自主调用维基百科搜索和arXiv文献检索等工具,通过多步决策过程验证响应内容的事实准确性。其训练采用复合奖励函数,同时监督中间工具使用行为和最终预测结果,既鼓励任务相关的工具选择,又确保判断准确性。实验表明,该模型在知识密集型长文本评估任务中显著优于现有基线,展现出强大的领域泛化能力和事实核查能力。
使用方法
OPENRM在评估过程中采用迭代式工具调用机制。给定输入查询和两个候选响应,模型首先规划并执行工具调用序列以检索支持性证据,随后基于收集的证据验证每个响应的质量,最终选择更优答案。在具体应用中,该模型可服务于推理时响应选择,通过比较候选答案的质量提升长文本输出效果;同时也可作为训练时数据选择器,通过筛选高质量任务解决轨迹来优化下游语言模型的训练数据集。其实用性在直接偏好优化等对齐任务中得到验证,能够有效提升语言模型的整体性能。
背景与挑战
背景概述
OPENRM数据集由莱顿大学、山东大学与清华大学联合团队于2025年提出,聚焦于解决知识密集型长文本任务中奖励模型的评估瓶颈。传统奖励模型依赖内部知识进行判断,难以应对需要外部证据支撑的复杂场景。该数据集通过引入工具增强机制,结合强化学习框架GRPO与可控数据合成技术,构建了包含2.7万对样本的训练集,涵盖维基百科、科研与医疗三大领域,显著提升了长文本评估的准确性与泛化能力,为大规模语言模型对齐任务提供了可靠的技术路径。
当前挑战
该数据集核心挑战在于长文本奖励建模的双重困境:其一,领域问题层面,传统模型难以精准判别依赖外部知识的回答质量,尤其在需要多步推理与事实核验的开放域任务中表现局限;其二,构建过程面临高质量训练数据稀缺的难题,长文本标注成本高昂且一致性难以保障。OPENRM通过部分合成框架生成对比样本,但需平衡工具调用效率与证据可靠性,同时避免强化学习中的奖励黑客行为,确保模型在稀疏监督下仍能保持稳定的判断性能。
常用场景
经典使用场景
在长文本智能体任务评估领域,OPENRM数据集通过集成外部工具调用能力,为生成式奖励模型提供了标准化的训练基准。该数据集特别适用于知识密集型长文本的质量评估场景,模型在处理复杂查询时能够自主检索维基百科和科学文献库等外部证据源,通过多步推理实现对候选回答的精准排序。这种工具增强的评估范式突破了传统奖励模型依赖内部知识的局限,为长文本生成任务的质量控制建立了新的技术标准。
实际应用
在实际部署中,OPENRM数据集支撑的奖励模型已广泛应用于智能写作辅助、学术论文评审和医疗问答系统等场景。在内容创作领域,该系统能够自动评估生成文本的事实准确性和逻辑连贯性;在学术评审环节,模型通过检索相关文献库为论文创新性评估提供客观依据;在医疗咨询场景中,则能验证健康建议的医学准确性。这些应用显著降低了人工审核成本,同时保障了专业领域内容生成的质量可靠性。
衍生相关工作
基于OPENRM数据集的技术路线,研究社区衍生出多个重要研究方向。工具增强的推理框架被扩展至多模态评估领域,开发出支持图像和表格数据验证的跨模态奖励模型。在训练方法层面,Group Relative Policy Optimization等强化学习算法得到进一步优化,提升了工具调用策略的样本效率。此外,该数据集还催生了自动化数据合成框架的深入研究,使高质量偏好数据的规模化生成成为可能,为后续的大规模奖励模型训练奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



