five

MM-Eval

收藏
arXiv2024-11-14 更新2024-11-16 收录
下载链接:
https://github.com/joenahm/MM-Eval
下载链接
链接失效反馈
官方服务:
资源简介:
MM-Eval数据集由中国民族大学开发,专门用于评估大型语言模型(LLMs)在现代蒙古语中的表现。该数据集包含1840条数据,分为四个层次:语法、语义、知识和推理。数据集的内容主要来源于《现代蒙古语教材I》,并结合了WebQSP和MGSM数据集进行丰富。数据集的创建过程包括从教材中提取句子,进行数据清洗和手动校正,以及使用ChatGPT API生成和验证数据。MM-Eval数据集的应用领域主要集中在低资源语言的NLP研究和LLMs的性能评估,旨在解决当前模型在处理蒙古语时的不足。

MM-Eval dataset was developed by Minzu University of China, specifically tailored for evaluating the performance of Large Language Models (LLMs) in Modern Mongolian. This dataset comprises 1,840 instances classified into four dimensions: grammar, semantics, knowledge, and reasoning. Its content is primarily derived from *Modern Mongolian Textbook I*, and augmented by integrating the WebQSP and MGSM datasets. The development pipeline of the MM-Eval dataset includes extracting sentences from the textbook, conducting data cleaning and manual correction, as well as generating and validating data via the ChatGPT API. The MM-Eval dataset is mainly applied in NLP research for low-resource languages and LLMs performance evaluation, aiming to address the current limitations of existing models when processing Mongolian.
提供机构:
中国民族大学
创建时间:
2024-11-14
搜集汇总
数据集介绍
main_image_url
构建方式
MM-Eval数据集的构建基于现代蒙古语教材I,并结合了WebQSP和MGSM数据集,以全面评估大型语言模型(LLMs)在蒙古语处理中的能力。数据集分为四个层次:语法(Syntax)、语义(Semantics)、知识(Knowledge)和推理(Reasoning)。语法部分包含569个多选题,语义部分包含677个多选题,知识部分包含344个多选题,推理部分包含250个数学问题。数据处理过程中,首先通过OCR技术将教材内容电子化,然后进行数据清洗和手动校正,确保数据的准确性。此外,WebQSP和MGSM数据集经过简单的JSON格式转换,并与教材内容整合,形成最终的评估数据集。
特点
MM-Eval数据集的特点在于其层次化的评估结构,能够详细评估模型在不同语言能力水平上的表现。此外,数据集结合了现代蒙古语教材和外部数据集,确保了评估内容的多样性和全面性。通过区分语言能力和认知能力,数据集能够揭示模型在处理蒙古语时的优势和不足,特别是在低资源语言环境下的表现。
使用方法
MM-Eval数据集适用于评估大型语言模型在蒙古语处理中的各种能力,包括语法、语义、知识和推理。使用者可以通过提供的API或直接下载数据集进行模型评估。评估过程中,建议使用NVIDIA Tesla V100等高性能设备进行推理,并设置适当的推理参数,如温度=0,topp=0.1,频率惩罚=1。系统提示应设置为“你是一个精通蒙古语的AI助手”,并根据不同的任务类型(如语法、语义、知识和推理)提供相应的用户提示。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著进展,尤其在高资源语言如中文和英语中表现卓越。然而,对于低资源语言如蒙古语的支持仍处于探索阶段。蒙古语作为一种复杂的语言,具有独特的语法结构和书写系统,其现代形式在蒙古国使用西里尔字母书写,而在中国内蒙古则使用传统蒙古文。MM-Eval数据集由民族大学和中国国家语言资源监测与研究中心等机构的研究人员开发,旨在评估LLMs在处理现代蒙古语时的能力。该数据集基于现代蒙古语教材和WebQSP、MGSM数据集构建,涵盖了语法、语义、知识和推理四个层次,为低资源语言的NLP研究提供了宝贵的资源。
当前挑战
MM-Eval数据集面临的挑战主要集中在两个方面。首先,低资源语言如蒙古语的语法和语义复杂性对模型的理解能力提出了高要求,尤其是在语义理解和复杂推理任务中,现有模型表现不佳。其次,数据集构建过程中,如何从有限的资源中提取高质量的训练数据,并确保数据的多层次评估准确性,是一个重大挑战。此外,跨语言知识迁移的有效性以及模型在不同语言能力层次上的表现差异,也是该数据集需要解决的关键问题。
常用场景
经典使用场景
MM-Eval数据集的经典使用场景主要集中在对现代蒙古语的大型语言模型(LLMs)进行系统性评估。该数据集通过四个层次的评估——语法(Syntax)、语义(Semantics)、知识(Knowledge)和推理(Reasoning),全面考察模型在低资源语言处理中的表现。这种多层次的评估结构不仅能够揭示模型在不同语言能力上的强弱,还能为模型在现代蒙古语处理中的优化提供宝贵的参考。
解决学术问题
MM-Eval数据集解决了在低资源语言如蒙古语中,大型语言模型(LLMs)评估的学术研究问题。通过提供一个系统化的评估框架,该数据集填补了现有研究中对蒙古语处理能力评估的空白。其双能力框架(Dual Capability Framework)将模型的能力分为语言能力和认知能力,有助于深入理解模型在不同语言层次上的表现,从而推动低资源语言处理领域的研究进展。
衍生相关工作
MM-Eval数据集的发布催生了一系列相关研究工作,特别是在低资源语言处理和多语言模型评估领域。基于MM-Eval的研究成果,学者们进一步探索了如何提升模型在低资源语言中的表现,开发了新的评估方法和数据集,以及提出了改进模型训练和优化的策略。这些衍生工作不仅丰富了蒙古语处理的学术研究,也为其他低资源语言的处理提供了宝贵的经验和方法。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作