MELABenchv1

Name: MELABenchv1
Creator: 马耳他大学人工智能系
Published: 2025-06-05 02:59:52
License: 暂无描述

arXiv2025-06-05 更新2025-06-07 收录

下载链接：

https://huggingface.co/spaces/MLRS/MELABench

下载链接

链接失效反馈

官方服务：

资源简介：

MELABenchv1是一个用于评估大型语言模型在低资源语言马尔他语上的性能的基准数据集。它包含了11个判别性和生成性任务，旨在帮助研究人员评估和发展语言技术。数据集包含了55个公开可用的语言模型，包括不同大小的模型和不同的训练方法，如预训练和指令微调。通过对这些模型的评估，研究结果表明，在预训练和指令微调过程中接触马尔他语的模型在下游任务上表现更好。此外，该数据集还提供了几个相对较小的微调模型，这些模型在某些任务上的表现优于所有包含在该研究中的大型语言模型。

提供机构：

马耳他大学人工智能系

创建时间：

2025-06-05

搜集汇总

数据集介绍

构建方式

MELABenchv1数据集的构建基于对马耳他语这一低资源语言的全面评估需求，涵盖了11项判别性和生成性任务。通过收集公开可用的马耳他语数据集，研究人员区分了任务类型，确保数据集的多样性和代表性。数据来源包括新闻文章、欧盟立法文件和维基媒体等，确保了数据覆盖的广泛性。在构建过程中，研究人员还特别关注了数据质量，对部分通过机器翻译获得的数据进行了噪音处理。

使用方法

使用MELABenchv1数据集时，研究人员可以通过零样本和单样本提示实验评估不同语言模型的性能。数据集支持多种评估指标，如宏平均F1分数、ChrF和Rouge-L等，适用于判别性和生成性任务。对于生成性任务，模型需要根据输入生成自然语言文本；对于判别性任务，模型则需从离散标签中选择最可能的输出。此外，数据集还支持马耳他语和英语两种指令，方便研究多语言环境下的模型表现。

背景与挑战

背景概述

MELABenchv1是由马耳他大学人工智能系的Kurt Micallef和Claudia Borg于2025年提出的一个针对低资源语言马耳他语的自然语言处理（NLP）基准测试数据集。该数据集旨在评估大型语言模型（LLMs）与小型微调模型在马耳他语任务上的性能差异。马耳他语作为一种低资源语言，在数字语言平等指数中排名最低，因此该数据集的创建填补了马耳他语NLP研究的空白。MELABenchv1涵盖了11项判别性和生成性任务，包括情感分析、主题分类、机器翻译等，为研究低资源语言的模型性能提供了全面的评估工具。

当前挑战

MELABenchv1面临的挑战主要包括两个方面：1) 领域问题的挑战：马耳他语作为一种低资源语言，其语言数据稀缺且多样性不足，导致模型在生成性任务上表现较差，尤其是在需要复杂语言理解和生成的任务中。2) 构建过程中的挑战：数据集的构建需要克服马耳他语数据稀缺的问题，同时确保数据质量和任务的多样性。此外，数据集的评估还揭示了模型在多语言环境下的性能差异，尤其是在模型是否在预训练或指令调优阶段接触过马耳他语数据的情况下，性能差异显著。这些挑战突显了在低资源语言NLP研究中需要更多包容性语言技术的必要性。

常用场景

经典使用场景

MELABenchv1数据集作为马耳他语这一低资源语言的自然语言处理基准，其经典使用场景主要涵盖11种判别式与生成式任务的系统性评估。该数据集通过整合情感分析、主题分类（SIB-200、Taxi1500）、多标签分类（MultiEURLEX）、机器阅读理解（Belebele）等判别任务，以及机器翻译（OPUS-100、Flores-200）、数据到文本生成（WebNLG）和摘要生成（EUR-Lex-Sum）等生成任务，为研究者提供了全面衡量语言模型跨任务泛化能力的标准化平台。尤其在零样本和少样本提示场景下，该数据集能有效测试模型对马耳他语语法结构、词汇特征的捕捉能力。

解决学术问题

该数据集解决了低资源语言技术开发中的核心学术问题：首先通过量化分析55个公开大语言模型在马耳他语任务上的表现差距，揭示了预训练数据覆盖度（PT/IT）与模型性能的强相关性；其次验证了传统微调方法在低资源场景下相对大模型的性价比优势，如126M参数的BERTu模型在多项任务上超越百亿级LLMs；最后通过多维度实验（模型规模、多语言覆盖度、提示语言等）建立了低资源语言模型评估的方法论框架，为语言平等研究提供了实证基础。

实际应用

在实际应用层面，MELABenchv1支持马耳他语智能服务的快速迭代：新闻机构可利用其主题分类模块实现多语种内容自动标签化；政府文档处理系统可基于摘要生成任务开发立法文本压缩工具；教育科技领域通过机器翻译评估结果优化双语教学材料生成。特别值得注意的是，该数据集证明小规模微调模型在推理成本（FLOPs降低3个数量级）和本地化部署方面的优势，为欧盟数字语言平等行动计划提供了可行的技术路径。

数据集最近研究