P-MMEval 多语言多任务基准数据集

超神经2024-12-12 更新2024-12-14 收录

下载链接：

https://hyper.ai/cn/datasets/36251

下载链接

链接失效反馈

官方服务：

资源简介：

P-MMEval 数据集是由阿里巴巴集团通义实验室于 2024 年创建的一个大规模多语言多任务基准数据集，旨在全面评估大语言模型 (LLMs) 的多语言能力。相关论文成果为「P-MMEVAL: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs」

The P-MMEval dataset is a large-scale multilingual multitask benchmark dataset created by Alibaba Group's Tongyi Laboratory in 2024, aiming to comprehensively evaluate the multilingual capabilities of large language models (LLMs). Its associated research paper is titled "P-MMEVAL: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs"

创建时间：

2024-11-28

搜集汇总

数据集介绍

背景与挑战

背景概述

P-MMEval是由阿里巴巴集团通义实验室于2024年创建的大规模多语言多任务基准数据集，旨在全面评估大语言模型的多语言能力。该数据集包含3个基础NLP数据集和5个高级能力专项数据集，覆盖代码生成、知识理解等任务，并通过专家翻译确保10种语言的一致性和平行样本。

以上内容由遇见数据集搜集并总结生成