mmlu-winogrande-afr
收藏arXiv2024-12-17 更新2024-12-19 收录
下载链接:
https://huggingface.co/datasets/InstituteDisease-Modeling/mmlu-winogrande-afr
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由Ghamut Corporation和Bill and Melinda Gates Foundation共同创建,旨在提升低资源非洲语言的LLM性能。数据集包含约100万个人工翻译的词汇,涵盖8种非洲语言,包括Amharic, Bambara, Igbo, Sepedi, Shona, Sesotho, Setswana, 和 Tsonga。数据集内容包括Winogrande和MMLU的三个临床部分(大学医学、临床知识和病毒学)的翻译。创建过程涉及专业翻译和多轮质量评估,确保翻译的准确性和文化适应性。该数据集主要用于评估和提升LLM在非洲语言中的表现,旨在解决语言资源不平衡问题,促进语言技术的包容性和有效性。
This dataset was co-created by Ghamut Corporation and the Bill & Melinda Gates Foundation, aiming to enhance the performance of Large Language Models (LLMs) in low-resource African languages. It contains approximately 1 million manually translated lexical entries, covering 8 African languages, namely Amharic, Bambara, Igbo, Sepedi, Shona, Sesotho, Setswana, and Tsonga. The dataset also includes translations of three clinical subsets of Winogrande and MMLU: College Medicine, Clinical Knowledge, and Virology. The development process involved professional translation and multi-round quality assessments to ensure translation accuracy and cultural adaptability. This dataset is primarily used to evaluate and improve the performance of LLMs in African languages, aiming to address the issue of language resource imbalance and promote the inclusivity and effectiveness of language technology.
提供机构:
Ghamut Corporation, MI, USA
创建时间:
2024-12-17
搜集汇总
数据集介绍

构建方式
该数据集的构建方式主要涉及将Winogrande和MMLU三个临床部分的多个选择题推理基准翻译成八种低资源非洲语言,包括阿姆哈拉语、班巴拉语、伊博语、塞佩迪语、绍纳语、塞索托语、茨瓦纳语和聪加语。翻译过程包括由Upwork.com招募的翻译人员进行翻译,然后由独立的验证人员检查和纠正翻译错误,最后由两个独立的评估人员对最终翻译质量进行评估。此外,MMLU三个临床部分的翻译由专业的翻译公司完成。整个过程旨在确保翻译的准确性和质量,以便于评估和改进LLM在非洲语言中的性能。
特点
mmlu-winogrande-afr数据集的特点在于它为低资源非洲语言提供了约100万个单词的新基准数据,覆盖了超过1.6亿人口的八种语言。这些基准数据是Winogrande和MMLU三个临床部分的翻译,涵盖了大学医学、临床知识和病毒学三个领域。数据集的特点还包括对LLM在非洲语言中的性能差距进行了量化评估,并探索了多种方法来减少这种差距,包括高质量数据集的微调、跨语言迁移和文化适当性调整。此外,该数据集还提供了文化注释数据,以丰富翻译的基准。
使用方法
使用mmlu-winogrande-afr数据集的方法包括对其进行微调以改善LLM在非洲语言中的性能。这可以通过调整微调数据来实现,包括基于数据领域、语言、数据质量和训练样本量的调整。此外,还可以使用跨语言迁移方法来提高模型在低资源语言中的性能。数据质量对LLM性能的影响也可以通过使用LLM作为注释器来评估。通过这些方法,研究人员和开发人员可以更好地了解LLM在非洲语言中的性能差距,并采取措施来减少这种差距,从而推动更包容和有效的语言技术的发展。
背景与挑战
背景概述
mmlu-winogrande-afr数据集旨在解决大型语言模型(LLM)在非英语语言,尤其是非洲本地语言中的性能不均问题。该数据集由Ghamut Corporation和Bill and Melinda Gates Foundation的研究人员创建,大约包含了100万个由人类翻译的新基准数据,涵盖8种低资源的非洲语言,包括阿姆哈拉语、班巴拉语、伊博语、塞佩迪语、绍纳语、索托语、茨瓦纳语和聪加语。这些基准数据是Winogrande和MMLU的三个部分:大学医学、临床知识和病毒学的翻译。该数据集的创建填补了非洲语言在LLM性能评估方面的空白,为研究和开发更具包容性和有效性的语言技术提供了重要的工具。该数据集的公开可用性支持了进一步的研究和开发,旨在为超过1.6亿的非洲语言使用者创造更多包容和有效的语言技术。
当前挑战
mmlu-winogrande-afr数据集面临着一些挑战。首先,该数据集所解决的领域问题是LLM在非洲本地语言中的性能不均问题,这需要通过翻译和调整来缩小性能差距。其次,在构建过程中,研究人员遇到了一些挑战,包括文化差异的影响和翻译质量的不一致性。此外,该数据集还面临语言覆盖和可扩展性的挑战,因为非洲有超过2000种本地语言,而该数据集只涵盖了11种语言。最后,该数据集的创建成本较高,因为人类翻译是创建数据集最昂贵的部分。为了解决这些挑战,研究人员需要进一步研究和开发,以创建更具包容性和有效性的语言技术,并提高LLM在非洲本地语言中的性能。
常用场景
经典使用场景
该数据集的经典使用场景包括在低资源非洲语言中评估和改进大型语言模型(LLM)的性能。通过对Winogrande和MMLU的三个部分进行人工翻译,数据集为评估LLM在非洲语言中的能力提供了工具。使用这些翻译后的基准,研究人员报告了在英语和非洲语言之间 previously unknown 的性能差距。此外,该数据集还用于探索减少LLM性能差距的方法,包括高质量数据集微调、跨语言转移和文化适应性调整。
实际应用
该数据集的实际应用场景包括开发更包容和有效的语言技术,以支持非洲语言的使用者。通过对Winogrande和MMLU进行人工翻译,数据集为评估LLM在非洲语言中的能力提供了工具,从而促进了语言技术的改进和普及。此外,该数据集还可以用于开发针对特定语言和文化的LLM,以满足非洲语言使用者的需求。
衍生相关工作
该数据集衍生了与低资源非洲语言相关的经典工作,包括翻译推理任务、跨语言迁移和文化适应性调整。这些工作进一步推动了在非洲语言中评估和改进LLM性能的研究。此外,该数据集还可以用于开发更包容和有效的语言技术,以支持非洲语言的使用者。
以上内容由遇见数据集搜集并总结生成



