MM-EVAL
收藏arXiv2024-10-23 更新2024-10-25 收录
下载链接:
https://github.com/guijinSON/MM-Eval
下载链接
链接失效反馈官方服务:
资源简介:
MM-EVAL是由延世大学和韩国科学技术院等机构创建的多语言元评估基准,涵盖18种语言,包含六个子集,旨在评估大型语言模型在非英语环境下的评估能力。数据集包含4981条数据,涵盖聊天、推理、安全、语言幻觉和语言学等多个领域。创建过程中,数据集通过多种语言的本地化处理和任务设计,确保了在低资源语言中的有效性。该数据集主要应用于评估和改进大型语言模型在多语言环境中的表现,解决其在非英语环境下的评估偏差问题。
MM-EVAL is a multilingual meta-evaluation benchmark developed by Yonsei University, Korea Advanced Institute of Science and Technology (KAIST) and other institutions. It covers 18 languages and comprises six subsets, with the goal of assessing the capabilities of large language models (LLMs) in non-English contexts. The dataset contains 4,981 instances spanning multiple domains such as chat, reasoning, security, linguistic hallucinations and linguistics. During its creation, the dataset underwent localization processing and task design across various languages to guarantee its effectiveness in low-resource languages. This benchmark is mainly applied to evaluate and enhance the performance of large language models in multilingual environments, addressing the issue of evaluation bias in non-English environments.
提供机构:
延世大学1 韩国科学技术院2 OneLineAI3 巴塞罗那超级计算中心4 Artful Media5 孟加拉工程技术大学6 卡内基梅隆大学7
创建时间:
2024-10-23
原始信息汇总
Multilingual Meta-EVALuation benchmark (MM-Eval)
概述
MM-Eval 是一个多语言元评估基准,包含五个核心子集:Chat、Reasoning、Safety、Language Hallucination 和 Linguistics,涵盖 18 种语言。此外,还有一个 Language Resource 子集,涵盖 122 种语言,用于更广泛的分析语言效应。
设计选择
- 最小化翻译样本的包含,以避免翻译错误导致的偏好变化。
- 增加语言和文化相关实例的比例。
- 仅在 Safety 子集中包含翻译样本。
- 增加 Linguistics 子集,评估模型对各种语言语言特征的理解能力。
- 在 Language Hallucination 子集中包含手工制作的文化相关提示。
使用方法
安装
python git clone https://github.com/guijinSON/MM-Eval cd MM-Eval cd reward-bench pip install -e .
评估奖励模型
bash python scripts/run_rm.py --model=prometheus-eval/MM-Mistral-7B-RM --custom_dataset_path prometheus-eval/MM-Eval
-
确保模型适合 GPU,否则减少批量大小: bash --batch_size 1
-
某些模型可能需要添加以下标志: bash --trust_remote_code
评估专有模型
-
添加 OpenAI API 密钥: bash export OPENAI_API_KEY="{your-api-key}"
-
运行评估: bash python scripts/run_generative.py --model=gpt-4o-mini-2024-07-18 --custom_dataset_path prometheus-eval/MM-Eval
评估 Prometheus2.0 和 Self-Taught Evaluator
- 使用原始实现,而非 Reward-Bench 代码库。
- 实验复现教程将很快添加。
引用
[TBD]
搜集汇总
数据集介绍

构建方式
MM-EVAL数据集的构建基于对大型语言模型(LLMs)作为评估者的可信度进行元评估的需求。该数据集涵盖了18种语言,分为六个子集:Chat、Reasoning、Safety、Language Hallucination、Linguistics和Language Resource。每个子集的构建都采用了不同的方法,例如利用OpenAssistant Conversations进行Chat子集的构建,使用MGSM数据集生成Reasoning子集的Chain-of-Thought响应,以及通过GPT-4o生成Language Hallucination子集的‘语言幻觉’响应。这些方法确保了数据集在多语言环境下的广泛适用性和挑战性。
使用方法
MM-EVAL数据集适用于评估和改进大型语言模型在多语言环境下的表现。研究者和开发者可以使用该数据集来测试和验证其模型的多语言评估能力,特别是在处理低资源语言时的表现。通过分析模型在不同子集上的表现,可以识别出模型在特定语言或任务上的弱点,并进行针对性的改进。此外,MM-EVAL还可以用于训练和验证新的奖励模型或评估模型,以提高其在多语言任务中的准确性和可靠性。
背景与挑战
背景概述
MM-EVAL数据集由韩国延世大学、韩国科学技术院等机构的研究人员于2024年创建,旨在解决大语言模型(LLMs)在多语言环境下作为评估工具的可信度问题。该数据集涵盖了18种语言,跨越六个类别,包括语言学、语言幻觉等特定语言挑战。MM-EVAL的推出填补了现有评估基准主要集中于英语的空白,为多语言环境下的LLMs评估提供了新的视角和工具。
当前挑战
MM-EVAL数据集面临的挑战主要集中在多语言评估的复杂性和构建过程中的技术难题。首先,多语言环境下的评估需要解决语言间的差异和特定语言的挑战,如语言学和语言幻觉问题。其次,构建过程中需确保数据集的广泛覆盖和高质量,避免翻译错误和数据偏差。此外,评估结果显示,无论是专有模型还是开源模型,在MM-EVAL上的表现均有较大提升空间,尤其是在低资源语言上的表现,显示出模型在这些语言上的评估能力尚需加强。
常用场景
经典使用场景
MM-EVAL数据集在多语言环境下评估大型语言模型(LLMs)作为评估者的可信度方面具有经典应用场景。该数据集通过涵盖18种语言和六个类别的广泛测试,评估了LLMs在不同语言环境中的表现,特别是在低资源语言中的表现。这种评估不仅限于英语,而是扩展到非英语环境,从而提供了对LLMs在多语言背景下作为评估者效能的全面洞察。
解决学术问题
MM-EVAL数据集解决了现有评估基准主要集中在英语环境,无法全面评估LLMs在非英语环境中的效能这一学术问题。通过引入多语言元评估基准,MM-EVAL显著提升了对LLMs在多语言环境中评估能力的理解,揭示了现有模型在处理低资源语言时的不足,并为未来的研究提供了改进方向。
实际应用
在实际应用中,MM-EVAL数据集被广泛用于开发和验证多语言环境下的奖励模型和判断模型。这些模型在跨语言的对话系统、内容生成和安全过滤等领域具有重要应用。通过MM-EVAL的评估,开发者可以更好地调整和优化模型,以适应不同语言和文化背景下的用户需求。
数据集最近研究
最新研究方向
近年来,MM-EVAL数据集在多语言大语言模型(LLMs)的元评估领域引起了广泛关注。该数据集不仅涵盖了18种语言,还引入了语言特定的挑战,如语言学和语言幻觉,以全面评估LLMs在非英语环境中的表现。研究结果表明,无论是专有模型还是开源模型,在MM-EVAL上的表现均有显著提升空间。这一发现促使研究者们进一步探索如何在低资源语言环境中优化LLMs的评估能力,从而推动多语言环境下的人工智能应用发展。
相关研究论文
- 1MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models延世大学1 韩国科学技术院2 OneLineAI3 巴塞罗那超级计算中心4 Artful Media5 孟加拉工程技术大学6 卡内基梅隆大学7 · 2024年
以上内容由遇见数据集搜集并总结生成



