P-MMEval

Name: P-MMEval
Creator: Qwen
Published: 2024-11-15 16:15:29
License: 暂无描述

Hugging Face2024-11-15 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Qwen/P-MMEval

下载链接

链接失效反馈

官方服务：

资源简介：

P-MMEval是一个多语言多任务基准测试，涵盖了有效的基本和能力专业化数据集。它扩展了现有的基准，确保所有数据集之间的一致语言覆盖，并提供多种语言之间的平行样本，支持多达10种语言（包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语）。P-MMEval有助于对多语言能力进行整体评估，并进行跨语言可转移性的比较分析。

P-MMEval is a multilingual and multi-task benchmark that encompasses both foundational and capability-specialized high-quality datasets. It extends existing benchmarks, ensures consistent language coverage across all included datasets, and provides parallel samples across multiple languages, supporting up to 10 languages including English, Chinese, Arabic, Spanish, Japanese, Korean, Thai, French, Portuguese, and Vietnamese. P-MMEval enables holistic evaluation of multilingual capabilities and comparative analyses of cross-language transferability.

提供机构：

Qwen

创建时间：

2024-11-13

原始信息汇总

P-MMEval: 多语言多任务并行基准

简介

P-MMEval 是一个多语言基准，涵盖了有效的基本和能力专业化数据集。我们扩展了现有的基准，确保所有数据集之间的一致语言覆盖，并在多种语言之间提供并行样本，支持多达 10 种语言（即英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语、越南语）。因此，P-MMEval 有助于对多语言能力进行整体评估，并进行跨语言可转移性的比较分析。

支持的语言

阿拉伯语
西班牙语
法语
日语
韩语
葡萄牙语
泰语
越南语
英语
中文

支持的任务

flores-200
humaneval-xl
mgsm
mhellaswag
mifeval
mlogiqa
mmmlu
xnli

主要结果

除 LLaMA3.2 系列外，所有模型的多语言能力随着模型规模的增加而提高。LLaMA3.2-1B 和 LLaMA3.2-3B 在指令跟随能力上表现较差，导致答案提取的失败率较高。此外，Qwen2.5 在理解和能力专业化任务上表现出色，而 Gemma2 在生成任务上表现优异。闭源模型通常优于开源模型。

引用

如果发现此数据集有帮助，请引用以下论文：

@misc{zhang2024pmmevalparallelmultilingualmultitask, title={P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs}, author={Yidan Zhang and Yu Wan and Boyi Deng and Baosong Yang and Haoran Wei and Fei Huang and Bowen Yu and Junyang Lin and Fei Huang and Jingren Zhou}, year={2024}, eprint={2411.09116}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.09116}, }

搜集汇总

数据集介绍

构建方式

P-MMEval数据集的构建基于多语言多任务基准测试的扩展与整合，旨在提供一致的语言覆盖和跨语言的平行样本。该数据集涵盖了10种语言，涉及8个语系，包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。通过整合现有的基准测试数据，P-MMEval确保了多语言能力的全面评估，并为跨语言迁移性分析提供了支持。

特点

P-MMEval数据集的特点在于其广泛的语言覆盖和多样化的任务类型。它不仅支持多种语言，还涵盖了基础能力和专项能力的测试任务，如理解、生成和逻辑推理等。数据集中的平行样本使得跨语言比较成为可能，为多语言模型的性能评估提供了丰富的实验场景。此外，P-MMEval还提供了详细的模型性能分析，帮助研究者深入理解不同模型在多语言任务中的表现。

使用方法

P-MMEval数据集的使用方法主要通过OpenCompass工具进行模型评估。用户可以通过命令行或Python脚本调用OpenCompass，指定待评估的模型和数据集配置。为了加速评估过程，建议使用vllm进行加速。通过这种方式，研究者可以方便地对不同语言模型在多语言任务中的表现进行全面测试，并获得详细的性能分析结果。

背景与挑战

背景概述

P-MMEval数据集由Yidan Zhang等研究人员于2024年提出，旨在为多语言多任务的大语言模型（LLMs）提供一致的评估基准。该数据集涵盖了10种语言，涉及8个语系，包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。P-MMEval通过扩展现有基准，确保所有数据集的语言覆盖一致性，并提供多语言之间的平行样本，从而支持对多语言能力的全面评估和跨语言迁移性的比较分析。该数据集的发布为多语言模型的研究和开发提供了重要的工具，推动了自然语言处理领域的发展。

当前挑战

P-MMEval数据集在构建和应用过程中面临多重挑战。首先，确保多语言数据集的语言覆盖一致性和平行样本的质量是一个复杂的问题，需要精确的语言对齐和数据处理技术。其次，不同语言之间的文化差异和语言结构差异可能导致模型在跨语言任务中的表现不一致，增加了评估的难度。此外，数据集的构建需要大量的多语言资源和跨领域知识，这对数据收集和标注工作提出了较高的要求。最后，如何在大规模多语言数据集上高效评估模型的性能，尤其是在生成任务和理解任务中的表现，仍然是一个亟待解决的技术难题。

常用场景

经典使用场景

P-MMEval数据集在多语言大模型评估领域具有重要地位，其经典使用场景包括对多语言理解、生成和推理能力的全面测试。通过涵盖10种语言和多种任务类型，该数据集能够为研究人员提供一致的评估框架，帮助他们在跨语言迁移和多任务学习中验证模型的性能。特别是在多语言生成任务中，P-MMEval通过提供并行样本，使得模型在不同语言间的表现能够进行直接对比，从而揭示模型的语言适应性和泛化能力。

衍生相关工作

P-MMEval数据集衍生了一系列经典研究工作，特别是在多语言大模型评估和优化领域。例如，基于该数据集的研究揭示了模型规模与多语言性能之间的关系，为模型设计提供了重要指导。此外，P-MMEval还推动了跨语言迁移学习的研究，相关成果被广泛应用于多语言自然语言处理任务中。这些工作不仅丰富了多语言模型的理论基础，也为实际应用中的模型优化提供了有力支持。

数据集最近研究