OMGEval, MoZIP, MLaKE, M3Exam

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/zabir-nabil/awesome-multilingual-large-language-models

下载链接

链接失效反馈

官方服务：

资源简介：

OMGEval：一个开放的多语言生成评估基准，用于大型语言模型，支持中文、俄语、法语、西班牙语和阿拉伯语。MoZIP：一个多语言基准，用于评估大型语言模型在知识产权领域的应用，支持中文、英语、德语、日语、法语、韩语、俄语、西班牙语和葡萄牙语。MLaKE：多语言知识编辑基准，用于大型语言模型，支持英语、中文、日语、法语和德语。M3Exam：一个多语言、多模态、多层次的基准，用于测试大型语言模型，支持英语、中文、意大利语、葡萄牙语、越南语、泰语、斯瓦希里语和阿非利卡语。

OMGEval: An open multilingual generation evaluation benchmark for large language models, supporting Chinese, Russian, French, Spanish, and Arabic. MoZIP: A multilingual benchmark for evaluating the application of large language models in the field of intellectual property, supporting Chinese, English, German, Japanese, French, Korean, Russian, Spanish, and Portuguese. MLaKE: A multilingual knowledge editing benchmark for large language models, supporting English, Chinese, Japanese, French, and German. M3Exam: A multilingual, multimodal, and multilevel benchmark for testing large language models, supporting English, Chinese, Italian, Portuguese, Vietnamese, Thai, Swahili, and Afrikaans.

创建时间：

2024-05-17

原始信息汇总

数据集概述

数据集名称

Awesome Multilingual Large Language Models

数据集描述

该数据集是一个综合性的多语言数据集和大型语言模型集合，精心策划用于评估和增强大型语言模型在多种语言和任务中的性能。

数据集内容

数据集列表

数据集名称	发布年份	支持语言	GitHub链接	数据下载链接
OMGEval	2024	中文(zh), 俄语(ru), 法语(fr), 西班牙语(es), 阿拉伯语(ar)	GitHub	数据
MoZIP	2024	中文(zh), 英语(en), 德语(de), 日语(ja), 法语(fr), 韩语(ko), 俄语(ru), 西班牙语(es), 葡萄牙语(pt), 加泰罗尼亚语(ca)	GitHub	数据
MLaKE	2024	英语(en), 中文(zh), 日语(ja), 法语(fr), 德语(de)	GitHub	数据
M3Exam	2023	英语, 中文, 意大利语, 葡萄牙语, 越南语, 泰语, 斯瓦希里语, 阿非利卡语, 爪哇语	GitHub	数据
Language models are multilingual chain-of-thought reasoners	2023	孟加拉语, 中文, 法语, 德语, 日语, 俄语, 西班牙语, 斯瓦希里语, 泰卢固语, 泰语	GitHub	数据
CulturaX	2023	英语, 俄语, 西班牙语, 德语, 法语, 中文, 意大利语, 葡萄牙语, 波兰语, 日语, 越南语, 荷兰语, 阿拉伯语, 土耳其语, 捷克语, 波斯语, 匈牙利语, 希腊语, 罗马尼亚语, 瑞典语, 乌克兰语, 芬兰语, 韩国语, 丹麦语, 保加利亚语, 挪威语, 印地语, 斯洛伐克语, 泰语, 立陶宛语, 加泰罗尼亚语, 印度尼西亚语, 孟加拉语, 爱沙尼亚语, 斯洛文尼亚语, 拉脱维亚语, 希伯来语, 塞尔维亚语, 泰米尔语, 阿尔巴尼亚语, 阿塞拜疆语	🤗	数据
Wiki-40B	2020	英语, 德语, 法语, 俄语, 西班牙语, 意大利语, 日语, 简体中文, 繁体中文, 波兰语, 乌克兰语, 荷兰语, 瑞典语, 葡萄牙语, 塞尔维亚语, 匈牙利语, 加泰罗尼亚语, 捷克语, 芬兰语, 阿拉伯语, 韩国语, 波斯语, 挪威语, 越南语, 希伯来语, 印度尼西亚语, 罗马尼亚语, 土耳其语, 保加利亚语, 爱沙尼亚语, 马来语, 丹麦语, 斯洛伐克语, 克罗地亚语, 希腊语, 立陶宛语, 斯洛文尼亚语, 泰语, 印地语, 拉脱维亚语, 菲律宾语	👁️	数据
Common Sense Beyond English	2021	英语, 德语, 法语, 俄语, 西班牙语, 印地语, 越南语, 保加利亚语, 中文, 荷兰语, 意大利语, 日语, 波兰语, 葡萄牙语, 阿拉伯语, 斯瓦希里语, 乌尔都语	GitHub️	数据
The BigScience ROOTS Corpus	2022	阿坎语, 阿拉伯语, 阿萨姆语, 班巴拉语, 巴斯克语, 孟加拉语, 加泰罗尼亚语, 奇切瓦语, 绍纳语, 奇通布卡语, 英语, 丰语, 法语, 古吉拉特语, 印地语, 伊博语, 印度尼西亚语, 科萨语, 祖鲁语, 卡纳达语, 基库尤语, 基尼亚卢旺达语, 基隆迪语, 林加拉语, 干达语, 马拉雅拉姆语, 马拉地语, 尼泊尔语, 北索托语, 奥里亚语, 葡萄牙语, 旁遮普语, 塞索托语, 塞茨瓦纳语, 简体中文, 西班牙语, 斯瓦希里语, 泰米尔语, 泰卢固语, 繁体中文, 特维语, 乌尔都语, 越南语, 沃洛夫语, 西索托语, 约鲁巴语, 编程语言	GitHub️	数据
GEOMLAMA	2022	英语, 中文, 印地语, 波斯语, 斯瓦希里语	GitHub️	🔍

模型列表

模型名称	发布年份	支持语言	代码链接	演示链接
Aya Model	2024	多种语言	Source	🤗
LANGBRIDGE	2024	阿拉伯语, 孟加拉语, 中文, 丹麦语, 荷兰语, 英语, 法语, 德语, 印地语, 日语, 韩语, 马拉地语, 旁遮普语, 俄语, 西班牙语, 斯瓦希里语, 泰卢固语, 土耳其语, 乌尔都语	Github	🤗
Orion-14B	2024	英语, 中文, 日语, 韩语, 西班牙语, 法语, 德语, 阿拉伯语	Github	🤗
Baichuan 2	2023	阿拉伯语, 中文, 英语, 法语, 俄语, 西班牙语, 德语, 日语	Github	🤗
BLOOM	2023	多种语言	Github	🤗
Glot500	2023	多种语言	Github	🔍
Few-shot Learning with Multilingual Generative Language Models	2022	英语, 俄语, 中文, 德语, 西班牙语, 法语, 日语, 意大利语, 葡萄牙语, 希腊语, 罗马尼亚语, 乌克兰语, 匈牙利语, 韩国语, 波兰语, 挪威语	Github	🔍

搜集汇总

数据集介绍

构建方式

该数据集的构建方式体现了对多语言大语言模型性能评估的深入考量。通过精心挑选和整理来自不同语言和任务的数据，确保了数据集的多样性和广泛性。具体而言，数据集包括了多种语言的文本数据，涵盖了从常见语言如英语、中文到较少见语言如斯瓦希里语和泰语。这种多语言的覆盖不仅有助于评估模型在不同语言环境下的表现，还为模型的多语言能力提供了全面的测试基准。

使用方法

该数据集的使用方法多样，适用于多种研究和应用场景。首先，研究人员可以通过该数据集评估和改进多语言大语言模型的性能，特别是在不同语言和任务环境下的表现。其次，开发者可以利用该数据集进行模型的训练和微调，以提升模型在特定语言和任务中的表现。此外，该数据集还可以用于教育和学术研究，帮助学生和研究人员理解和掌握多语言大语言模型的构建和评估方法。数据集的下载和使用均通过GitHub和Hugging Face等平台进行，确保了使用的便捷性和透明度。

背景与挑战

背景概述

在多语言大型语言模型（LLMs）的快速发展背景下，OMGEval、MoZIP、MLaKE和M3Exam等数据集应运而生，旨在全面评估和提升这些模型在不同语言和任务中的性能。这些数据集由多个知名研究机构和团队精心策划，如北京语言大学（BLCU）、科学人工智能（AI-for-Science）、Hi-archers和DAMO-NLP-SG等。它们的核心研究问题集中在多语言环境下的生成评估、知识产权评估、知识编辑以及多层次考试评估等方面。这些数据集的创建不仅推动了多语言LLMs的研究进展，还为跨语言应用提供了坚实的基础。

当前挑战

这些数据集在构建过程中面临诸多挑战。首先，多语言数据的收集和处理需要克服语言多样性和数据异质性的问题。其次，确保数据集在不同语言中的平衡性和代表性是一个复杂的过程。此外，评估多语言LLMs的性能时，如何设计有效的评估指标和方法也是一个重要挑战。最后，随着语言模型的不断发展，数据集需要持续更新和扩展，以保持其前沿性和实用性。这些挑战不仅涉及技术层面，还涉及到跨文化和跨领域的合作与协调。

常用场景

经典使用场景

在多语言大语言模型的研究领域，OMGEval、MoZIP、MLaKE和M3Exam数据集被广泛用于评估和提升大型语言模型在不同语言和任务中的表现。这些数据集通过提供多语言的文本数据，帮助研究人员在跨语言环境下测试和优化模型的性能，特别是在语言生成、知识编辑和多模态理解等任务中。

解决学术问题

这些数据集解决了多语言环境下大语言模型的评估和优化问题，填补了现有数据集在多语言支持上的不足。通过提供丰富的多语言文本和多模态数据，这些数据集有助于推动跨语言理解和生成的研究，提升了模型在不同语言间的迁移能力和泛化性能，对多语言自然语言处理领域具有重要意义。

实际应用

在实际应用中，这些数据集被用于开发和测试多语言智能助手、跨语言翻译系统以及多语言内容生成工具。例如，在跨国企业的客户服务中，多语言智能助手可以利用这些数据集进行训练，提供更准确和流畅的多语言交互体验。此外，新闻机构和社交媒体平台也可以利用这些数据集优化其多语言内容推荐系统。

数据集最近研究