M-PROMETHEUS
收藏arXiv2025-04-07 更新2025-04-09 收录
下载链接:
http://arxiv.org/abs/2504.04953v1
下载链接
链接失效反馈官方服务:
资源简介:
M-PROMETHEUS是一套开放参数的的多语言大型语言模型评价器,由Unbabel等机构开发,旨在对多语言输出提供直接评估和成对比较反馈。该数据集包含了多种语言的直接评估和成对比较数据,用于训练和评估模型在多语言环境下的性能。
提供机构:
Unbabel, Instituto de Telecomunicacões, Instituto Superior Técnico, Universidade de Lisboa, KAIST, CMU, Independent Researcher, ELLIS Unit Lisbon
创建时间:
2025-04-07
搜集汇总
数据集介绍

构建方式
M-PROMETHEUS数据集的构建采用了多语言合成数据生成与机器翻译评估数据相结合的方法。首先,基于Prometheus 2的反馈和偏好集合,使用Claude-Sonnet-3.5生成非英语的指令、候选回答和参考回答,形成多语言直接评估数据集M-FEEDBACK COLLECTION。随后,通过配对不同质量的回答生成偏好对,构建多语言成对比较数据集M-PREFERENCE COLLECTION。此外,还引入了机器翻译评估数据,覆盖多种语言对,以增强跨语言评估能力。最终数据集包含英语、法语、葡萄牙语、希腊语、中文和印地语六种语言,每种语言包含10,000个直接评估和10,000个成对比较样本。
特点
M-PROMETHEUS数据集的主要特点包括其多语言覆盖能力和多样化的评估任务。数据集支持超过20种语言的评估,涵盖直接评估(DA)和成对比较(PWC)两种反馈模式。其独特之处在于包含原生多语言数据而非翻译数据,以及机器翻译评估任务的数据,这显著提升了模型在跨语言任务中的表现。此外,数据集还支持基于参考和无参考的评估,增强了模型的适用性。数据分布均衡,覆盖了多种主题和风格,确保了模型在不同语言和任务上的泛化能力。
使用方法
M-PROMETHEUS数据集主要用于训练和评估多语言大语言模型(LLM)的评判能力。使用时,可以将数据集分为训练集和测试集,用于微调模型以生成直接评估分数或成对比较反馈。评估时,可在多语言奖励基准(如M-RewardBench)和文学机器翻译评估(如LitEval)等任务上测试模型性能。此外,该数据集还可用于质量感知解码(QAD),通过模型评判改进多语言生成结果。用户可通过Huggingface平台获取数据集和预训练模型,利用提供的代码复现实验或进行进一步研究。
背景与挑战
背景概述
M-PROMETHEUS是由Unbabel、Instituto de Telecomunicações、Instituto Superior Técnico、KAIST、CMU等机构的研究人员于2025年4月推出的开源多语言大型语言模型(LLM)评估套件。该数据集旨在解决当前LLM评估领域的一个关键问题:大多数LLM评估器仅针对英语优化,而多语言评估能力的研究相对匮乏。M-PROMETHEUS通过提供从3B到14B参数不等的开源权重LLM评估器,支持对多语言输出进行直接评估和成对比较反馈,涵盖了超过20种语言。该数据集的推出显著提升了多语言奖励基准和文学机器翻译评估的性能,并为开发更强大的多语言模型提供了实用工具。
当前挑战
M-PROMETHEUS面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,多语言评估的复杂性和多样性使得评估器需要具备跨语言的理解和判断能力,尤其是在处理低资源语言时表现尤为突出。构建过程中的挑战包括:1) 多语言训练数据的获取和质量控制,特别是对于非英语语言的高质量评估数据的稀缺;2) 模型架构的选择和优化,需要平衡不同语言之间的性能;3) 评估标准的统一和量化,尤其是在跨语言和跨文化背景下保持评估的公正性和一致性。此外,如何有效整合机器翻译评估数据以提升通用多语言评估能力,以及如何确保模型在不同语言间的评估性能均衡,都是构建过程中需要解决的关键问题。
常用场景
经典使用场景
M-PROMETHEUS数据集在自然语言处理领域中被广泛用于评估多语言大语言模型(LLM)的生成质量。该数据集特别适用于需要多语言直接评估(DA)和成对比较(PWC)的场景,例如在多语言机器翻译评估、多语言对话系统生成内容的质量评估等任务中。通过提供多语言反馈数据,M-PROMETHEUS能够帮助研究人员更全面地评估模型在不同语言上的表现。
解决学术问题
M-PROMETHEUS数据集解决了多语言自动评估方法质量不均衡的问题,尤其是在非英语语言上的评估能力不足。通过提供高质量的多语言评估数据,该数据集使得研究人员能够更准确地评估和比较不同多语言模型的性能,从而推动多语言模型的发展。此外,该数据集还填补了现有评估方法在文学机器翻译等复杂任务上的不足,为相关研究提供了重要支持。
衍生相关工作
M-PROMETHEUS数据集衍生了一系列相关研究,包括多语言评估基准的构建、多语言模型优化方法的研究以及多语言生成任务的改进。例如,基于该数据集的研究提出了新的多语言评估指标,优化了多语言模型的训练策略,并在多个多语言任务中取得了显著的性能提升。这些工作进一步推动了多语言自然语言处理领域的发展。
以上内容由遇见数据集搜集并总结生成



