PRM800K和Math-Shepherd的翻译组合数据集
收藏arXiv2025-02-18 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.12663v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由PRM800K和Math-Shepherd两个数据集翻译而成,包含了七种语言,由爱丁堡大学信息学院和莫纳什大学的研究人员创建。数据集用于训练多语言的过程奖励模型,旨在提高大型语言模型在多步骤推理任务中的性能。数据集的创建是为了解决多语言环境中过程奖励模型的训练问题,并探索多语言数据集对模型性能的影响。
This dataset is constructed by translating two source datasets, PRM800K and Math-Shepherd, and covers seven languages. It was developed by researchers from the School of Informatics at the University of Edinburgh and Monash University. This dataset is designed for training multilingual process reward models, with the goal of enhancing the performance of large language models (LLMs) on multi-step reasoning tasks. It was created to address the challenges of training process reward models in multilingual scenarios, and to explore the impact of multilingual datasets on model performance.
提供机构:
爱丁堡大学信息学院
创建时间:
2025-02-18
搜集汇总
数据集介绍

构建方式
为了扩展过程奖励模型(PRM)至多语言环境,研究团队将现有的PRM数据集PRM800K和Math-Shepherd从英语翻译成六种额外的语言,包括德语、西班牙语、法语、俄语、斯瓦希里语和中文。这些翻译数据集被合并用于训练多语言PRMs。研究团队定义了三种PRM设置:PRM-MONO(仅在单一语言上训练和评估)、PRM-CROSS(在一个语言上训练但在所有测试语言上评估)和PRM-MULTI(在所有七个见过的语言上训练并在所有测试语言上评估)。
特点
PRM800K和Math-Shepherd的翻译组合数据集是一个多语言数据集,用于训练和评估过程奖励模型(PRMs)。该数据集跨越七种语言,包括英语、德语、西班牙语、法语、俄语、斯瓦希里语和中文。该数据集的特点是提供了多语言环境下的细粒度反馈,能够有效地提高平均准确率并减少早期推理错误。此外,该数据集还揭示了多语言PRMs对训练语言数量和英语数据量的敏感性,并展示了从更多候选响应和可训练参数中获得的益处。
使用方法
PRM800K和Math-Shepherd的翻译组合数据集可以用于训练和评估过程奖励模型(PRMs)。研究团队使用了三种大型语言模型(LLMs)作为生成器:METAMATH-MISTRAL-7B、LLAMA-3.1-8B-MATH和DEEPSEEKMATH-7B-INSTRUCT。在训练过程中,使用Policy Optimization(PPO)方法对LLMs进行微调,并通过PRM提供每一步的奖励。在评估过程中,使用best-of-N选择评估范式来评估PRMs的性能。此外,研究团队还探索了参数高效微调(PEFT)方法LoRA在多语言PRMs上的应用。
背景与挑战
背景概述
在自然语言处理领域,大型语言模型(LLMs)被设计用于执行广泛的任务。为了提高其解决复杂的多步推理问题的能力,近年来,研究开始利用过程奖励建模(PRM)为强化学习(RL)中的每个推理步骤提供细粒度的反馈。然而,这些研究主要集中在英语上。本文提出的关键挑战是将过程奖励模型(PRMs)扩展到多语言环境。为了实现这一目标,研究人员在跨越七种语言的翻译数据集上训练了多语言PRMs,并通过在11种语言的两个广泛使用的推理基准上的综合评估,证明了多语言PRMs不仅可以提高平均准确率,还可以减少早期推理错误。这项工作为在复杂的多步推理任务中实现鲁棒的多语言应用开辟了有希望的途径。
当前挑战
该数据集相关的挑战主要包括:1)所解决的领域问题(例如:ImageNet数据集解决的领域问题是图像分类)的挑战;2)构建过程中所遇到的挑战。
常用场景
经典使用场景
PRM800K和Math-Shepherd的翻译组合数据集主要用于训练多语言过程奖励模型(PRMs),以提供对大型语言模型(LLMs)在多步推理过程中每一步的细粒度反馈。通过在包含七种语言的翻译数据集上进行训练,该数据集旨在解决复杂的推理问题,并提高LLMs在多语言环境下的推理能力。
实际应用
该数据集的实际应用场景包括多语言问答系统、多语言数学推理和机器翻译等领域。通过使用多语言PRMs,可以显著提高LLMs在多语言环境下的推理能力,为各种应用场景提供更准确的推理结果。
衍生相关工作
该数据集衍生了多项相关工作,包括多语言奖励模型在数学推理中的应用、多语言PRMs的训练方法研究以及多语言PRMs在强化学习中的应用等。这些研究进一步推动了多语言推理技术的发展,并为相关领域的应用提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



