ALBA
收藏arXiv2026-03-27 更新2026-03-31 收录
下载链接:
https://github.com/AMALIA-LLM/alba-benchmark
下载链接
链接失效反馈官方服务:
资源简介:
ALBA是由新里斯本大学语言专家团队开发的欧洲葡萄牙语(pt-PT)语言学评估基准,包含800条人工构建的测试问题,覆盖语言变体、文化语义、话语分析等8个语言学维度。该数据集通过专家标注的参考答案(720条)和LLM-as-a-judge框架支持生成式模型的细粒度评估,旨在解决pt-PT语言资源匮乏导致的模型偏见问题,推动葡萄牙语NLP工具的发展。数据来源于专家设计的原创任务,涉及方言转换、谚语解释、诗歌创作等典型应用场景。
ALBA is a European Portuguese (pt-PT) linguistic evaluation benchmark developed by a team of language experts from Universidade Nova de Lisboa. It contains 800 manually constructed test questions covering 8 linguistic dimensions including language variation, cultural semantics, discourse analysis and others. The dataset supports fine-grained evaluation of generative models via expert-annotated reference answers (720 in total) and the LLM-as-a-judge framework, aiming to address the model bias problem caused by the scarcity of pt-PT language resources and promote the development of Portuguese NLP tools. The data is sourced from original tasks designed by experts, involving typical application scenarios such as dialect conversion, proverb interpretation and poetry creation.
提供机构:
新里斯本大学; NOVA LINCS
创建时间:
2026-03-27
搜集汇总
数据集介绍
构建方式
在构建ALBA数据集时,研究团队采用了专家主导的手工构建方法,以确保数据的高质量和语言准确性。该数据集围绕欧洲葡萄牙语的八个核心语言学维度展开,包括语言变体、文化语义、话语分析、文字游戏、句法、形态学、词汇学以及语音与音系学。每个维度的100个问题均由两位拥有语言学硕士学位的专家分两轮独立创建并交叉审核,共计800个问题。专家还为每个问题提供了不同质量等级的参考答案,并采用1-5分的李克特量表进行标注,形成了720条专家评分的响应数据,为后续评估提供了可靠的基准。
特点
ALBA数据集的核心特点在于其全面覆盖欧洲葡萄牙语的多维度语言学评估,并特别关注该语言变体与巴西葡萄牙语之间的差异。数据集突破了传统多项选择题的局限,强调文本生成任务,从而能够深入评估模型在诗歌创作、文字游戏等创造性语言任务上的表现。此外,ALBA集成了丰富的文化特定内容,如谚语、绕口令和谜语,并考虑了葡萄牙本土的区域方言差异。其配套的LLM-as-a-Judge评估框架经过严谨验证,能够对开放式回答进行可扩展且可靠的评分,确保了评估结果与母语者直觉的一致性。
使用方法
使用ALBA数据集时,研究人员首先利用其800个专家构建的问题,对大型语言模型在欧洲葡萄牙语八个语言学维度上的生成能力进行测试。模型生成的开放式回答随后通过经过校准的LLM-as-a-Judge框架进行评估,该框架采用葡萄牙语提示词和少量示例,以确保评分与人类专家判断对齐。评估结果以各维度的细分分数呈现,揭示了模型在句法、语义等传统强项与语音、文字游戏等薄弱环节的具体表现差异。该流程为系统比较不同模型在欧洲葡萄牙语上的语言学能力提供了标准化、可复现的基准测试方法。
背景与挑战
背景概述
随着大语言模型在多语言领域的广泛应用,评估其在资源匮乏语言中的性能变得日益重要。欧洲葡萄牙语(pt-PT)正面临代表性不足的困境,现有训练数据和基准测试主要集中于巴西葡萄牙语(pt-BR)。为应对这一挑战,里斯本新大学的研究团队于2026年推出了ALBA基准数据集。该数据集由语言学专家精心构建,旨在系统评估生成式大语言模型在pt-PT语言中八个核心语言学维度的能力,涵盖语言变体、文化语义、话语分析、文字游戏、句法、形态学、词汇学以及语音学与音系学。ALBA的诞生填补了欧洲葡萄牙语在细粒度语言学评估方面的空白,为促进该语言在自然语言处理领域的均衡发展提供了关键工具。
当前挑战
ALBA数据集致力于解决生成式大语言模型在欧洲葡萄牙语语境下的综合语言学能力评估问题,其核心挑战在于克服该语言变体在现有资源中的系统性偏差。构建过程中面临多重困难:首先,需在pt-BR数据主导的生态中精准捕捉pt-PT特有的语言、文化及区域变体特征,避免翻译依赖导致的语义失真;其次,设计涵盖语音韵律、文字游戏等复杂维度的评估任务时,需确保其能有效检验模型的深层语言理解与创造性生成能力,而非表面模式匹配;此外,建立可靠的自动化评估框架亦需解决开放答案评分的主观性问题,通过专家标注与LLM-as-a-Judge方法的协同验证来保障评估效度。
常用场景
经典使用场景
在多语言大语言模型评估领域,ALBA数据集为欧洲葡萄牙语的语言能力测评提供了权威基准。该数据集最经典的使用场景在于系统性地评估生成式大模型在八项语言学维度上的表现,涵盖语言变体、文化语义、话语分析、文字游戏、句法、形态学、词汇学以及语音与音系学。研究人员通过ALBA的800道专家人工构建的题目,能够深入剖析模型在特定语言变体中的生成质量,尤其关注其区分欧洲葡萄牙语与巴西葡萄牙语细微差异的能力,以及处理成语、诗歌、双关语等复杂语言现象的水平。
实际应用
在实际应用层面,ALBA数据集为开发面向葡萄牙市场的智能语言服务提供了关键的质量控制标准。例如,在构建欧洲葡萄牙语的聊天机器人、内容生成工具或教育辅助系统时,开发者可利用ALBA评估模型输出的语言地道性,避免出现混淆语言变体或误用文化隐喻的问题。此外,该数据集支撑的LLM-as-a-Judge框架能够实现生成文本质量的自动化、规模化评估,显著降低了人工审核成本,使得企业能够高效优化产品在特定语言社区中的适用性与用户体验。
衍生相关工作
ALBA的推出激发了围绕低资源语言模型评估的一系列经典研究工作。其设计理念借鉴并扩展了如韩语评估基准CLIck、丹麦语NLU Benchmark等针对特定语言文化评估的先行经验。在葡萄牙语领域,ALBA与已有的机器翻译衍生基准(如PORTULAN ExtraGLUE)、手动翻译资源(如BATS-PT)以及原生任务数据集(如CALAME-PT)形成了互补生态。后续研究可基于ALBA揭示的模型弱点,开发针对语音学、形态学等薄弱维度的专项训练数据或微调方法,进一步推动欧洲葡萄牙语语言模型的技术进步。
以上内容由遇见数据集搜集并总结生成



