MM-Eval

Hugging Face2024-10-26 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/prometheus-eval/MM-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

MM-Eval是一个多语言元评估基准，包含五个核心子集：聊天、推理、安全、语言幻觉和语言学，涵盖18种语言，并有一个语言资源子集涵盖122种语言，用于更广泛的分析语言影响。数据集设计时减少了翻译样本的包含，以避免翻译错误改变现有偏好，仅在安全子集中包含翻译样本。此外，数据集还包含一个语言学子集，用于评估模型对各种语言语言特征的理解能力，并在语言幻觉子集中加入了手工制作的文化相关提示。

创建时间：

2024-10-25

原始信息汇总

Multilingual Meta-EVALuation benchmark (MM-Eval)

数据集概述

名称: MM-Eval
描述: 一个多语言元评估基准，包含五个核心子集——Chat、Reasoning、Safety、Language Hallucination 和 Linguistics，涵盖18种语言，以及一个涵盖122种语言的Language Resource子集，用于更广泛的分析语言效应。

数据集特征

特征:
- prompt: 字符串
- chosen: 字符串
- rejected: 字符串
- language: 字符串
- subset: 字符串
- chosen_model: 字符串
- rejected_model: 字符串
- id: 整数
- __index_level_0__: 整数

数据集分割

分割:
- test: 包含11081个样本，大小为30802291字节

数据集大小

下载大小: 13929039字节
数据集大小: 30802291字节

配置

配置名称: default
数据文件:
- test: 路径为 data/test-*

支持的语言

阿拉伯语, 孟加拉语, 加泰罗尼亚语, 德语, 英语, 西班牙语, 巴斯克语, 法语, 加利西亚语, 意大利语, 日语, 韩语, 俄语, 斯瓦希里语, 泰卢固语, 泰语, 越南语, 中文

许可证

许可证: CC BY-SA 4.0

引用

@article{son2024mm, title={MM-Eval: A Multilingual Meta-Evaluation Benchmark for LLM-as-a-Judge and Reward Models}, author={Son, Guijin and Yoon, Dongkeun and Suk, Juyoung and Aula-Blasco, Javier and Aslan, Mano and Kim, Vu Trong and Islam, Shayekh Bin and Prats-Cristi{`a}, Jaume and Tormo-Ba{~n}uelos, Luc{\i}a and Kim, Seungone}, journal={arXiv preprint arXiv:2410.17578}, year={2024} }

搜集汇总

数据集介绍

构建方式

MM-Eval数据集的构建注重语言多样性与文化相关性，涵盖了18种核心语言和122种语言资源子集。为了避免翻译误差对数据偏好的影响，该数据集尽量减少翻译样本的引入，仅在安全子集中包含翻译内容。同时，数据集通过增加语言学和文化相关实例的比例，丰富了语言幻觉子集中的手工制作提示，并特别设计了语言学子集，以评估模型对不同语言特征的理解能力。

特点

MM-Eval数据集以其多语言覆盖和多样化的子集设计为显著特点，包含聊天、推理、安全、语言幻觉和语言学五大核心子集。数据集不仅支持对模型在多语言环境下的表现进行深入分析，还通过语言资源子集扩展了对语言效应的广泛研究。其独特的设计使得该数据集能够全面评估模型在不同语言和文化背景下的适应性与准确性。

使用方法

MM-Eval数据集适用于多语言模型评估与奖励模型的开发。用户可通过加载数据集中的测试集，利用其丰富的语言和文化相关提示，对模型进行多维度评估。数据集支持多种语言，用户可根据研究需求选择特定语言子集进行分析。此外，数据集提供了详细的元数据信息，便于用户进行数据筛选与模型训练。通过结合代码库和论文，用户可以深入理解数据集的设计理念，并应用于实际研究场景。

背景与挑战

背景概述

MM-Eval数据集由Guijin Son等研究人员于2024年提出，旨在为多语言环境下的模型评估提供一个全面的基准。该数据集涵盖了18种核心语言，并包含五个核心子集：Chat、Reasoning、Safety、Language Hallucination和Linguistics，以及一个包含122种语言的Language Resource子集。其设计理念在于减少翻译样本的引入，以避免翻译误差对评估结果的影响，同时增加语言和文化相关实例的比例。该数据集的发布为多语言模型评估提供了新的视角，特别是在语言理解和文化适应性方面，推动了相关领域的研究进展。

当前挑战

MM-Eval数据集在构建过程中面临多重挑战。首先，多语言环境下的数据收集和标注需要克服语言多样性和文化差异带来的复杂性，确保数据在不同语言和文化背景下的准确性和一致性。其次，减少翻译样本的引入虽然避免了翻译误差，但也增加了获取高质量原生数据的难度。此外，评估模型在多语言环境下的表现需要设计复杂的评估指标和方法，以确保评估结果的全面性和可靠性。这些挑战不仅体现在数据集的构建过程中，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

MM-Eval数据集在多语言模型评估领域具有广泛的应用，特别是在评估大型语言模型（LLM）作为评判者和奖励模型的表现时。该数据集通过涵盖18种语言的五个核心子集（Chat、Reasoning、Safety、Language Hallucination和Linguistics），为研究者提供了一个全面的评估框架。经典使用场景包括在多语言环境下测试模型的推理能力、安全性、语言幻觉现象以及语言学特征的理解能力。

解决学术问题

MM-Eval数据集解决了多语言模型评估中的关键学术问题，特别是在跨语言和文化背景下的模型表现评估。通过减少翻译样本的引入，该数据集避免了因翻译错误导致的偏好偏差，同时增加了语言和文化相关实例的比例。此外，Linguistics子集的设计使得研究者能够更准确地评估模型对不同语言语言学特征的理解能力，从而推动了多语言模型评估方法的发展。

衍生相关工作

MM-Eval数据集的发布催生了一系列相关研究工作，特别是在多语言模型评估和优化领域。例如，基于该数据集的研究提出了新的多语言评判模型和奖励模型，进一步提升了模型在跨语言环境下的表现。此外，该数据集还推动了多语言问答系统（如MMQA）的发展，为多语言智能助手和跨语言内容审核系统的开发提供了重要的参考和基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集